May 3, 2026

Jangan Kasih Agent Akses Destruktif — AI Tools Digest #14

Minggu ini obrolan grup rasanya pindah dari “tool mana yang paling pintar?” ke “tool mana yang boleh pegang akses apa?”. Dari 358 pesan, benang merahnya cukup jelas: kita makin nyaman pakai agent untuk kerja serius, sambil makin sadar bahwa agent yang terlalu bebas bisa menyentuh akses destruktif: delete database, hapus volume, cabut backup, atau command infra yang efeknya langsung terasa. Itu yang saya maksud dengan “tombol merah”: aksi berisiko tinggi yang seharusnya butuh pagar, approval, dan recovery path jelas. 😅

Agent Safety Sudah Jadi Desain Dasar

Pemantiknya masih cerita horor production deletion yang sempat saya share: thread insiden Railway, lalu muncul juga versi berita “AI agent deletes database” dari Moneycontrol. Detail yang bikin Mbak Eka bereaksi datang dari desain backup-nya: “Because Railway stores volume-level backups in the same volume ... wiping a volume deletes all backups”, kata Mbak Eka, lalu menutupnya dengan “apa2an dah 💀”.

Mas Riga menangkap pola pikir agent-nya dengan cukup ngeri: “I guessed instead of verifying I ran a destructive action without being asked I didn't understand what I was doing before doing it.” Yang seram di sini: sistem memberi ruang terlalu luas ke aktor yang belum cukup paham failure mode.

Saya sendiri jadi cerita praktik yang saya pakai di OpenClaw: “OpenClaw cuman bisa read-only.” Untuk kerja kantor, saya nyaman agent membaca dan mengusulkan, tapi write access saya batasi ke tempat yang punya recovery path jelas seperti GitHub. Mas Zahid juga setuju dengan pola itu: “Akses api key ke ai juga read only.” Mas Ardit bahkan masih menahan diri: “masih belum berani klo OpenClaw buat ke kantor.. Github PAT nya yang dikasih cuma buat personal repo aja.”

Obrolannya kemudian turun ke mitigasi yang lebih membumi. Mas Salma bertanya apakah rm bisa dibuat konfirmasi dulu via email sebelum jalan. Mas Galih punya kebiasaan sederhana tapi bagus: “Aku selalu suruh untuk gantiin rm rf pake command “trash”. Jd nanti masuknya ke recycle bin / trash.” Saya lalu share destructive_command_guard, karena ternyata ada juga orang yang sudah bikin guard untuk perintah destruktif.

Implikasinya buat saya: agent safety perlu diperlakukan sebagai arsitektur dasar sejak awal. Kalau manusia junior saja tidak kita beri akses production penuh, agent yang bisa mengetik 20x lebih cepat juga tidak perlu memegang kunci semua pintu.

Hemat Token Sekarang Sudah Jadi Arsitektur Workflow

Thread paling praktis minggu ini dimulai dari pertanyaan Mas Aziz Iqbal: rekomendasi subscription AI bulanan, karena Cursor terasa “boros banget”. Dari situ obrolannya melebar ke opencode Go, Alibaba Cloud, Sumopod, BytePlus, DeepSeek, GLM, Kimi, sampai pi.dev.

Yang paling bikin orang nengok adalah pi.dev. Mas Azam baru coba dan langsung bilang, “baru nyoba pi.dev ternyata jadi hemat bgt ya token usagenya, nyesel baru pake 😭.” Dia membandingkan prompt sederhana say hello for testing: opencode Sonnet sekitar $0.09, Claude Code Sonnet sekitar $0.03, pi.dev Opus sekitar $0.016, dan pi.dev Sonnet sekitar $0.006. Angkanya memang belum layak disebut benchmark ilmiah, tapi cukup untuk membuat satu grup mendadak fokus.

Mas Michael, seperti biasa, langsung mode “ini kan sudah saya bilang”: “sudah 2-3 bulan lalu tak ramaikan pi.dev ini 😂.” Dan memang lucunya begitu: tool yang minggu ini terasa baru buat sebagian orang ternyata sudah lama jadi bahan promosi di grup. Mas Azam sendiri mengaku, “jarang nyimak nih grup wkwkwkw.” Ini mungkin alasan digest mingguan masih berguna: grupnya terlalu deras untuk diikuti real-time.

Obrolan hemat token lalu berubah jadi obrolan plumbing. Oh My Pi masuk karena bisa menjembatani provider, tapi setup-nya tidak selalu mulus. Mas Desilino cerita, “Pake omp + qwen3.6 plus, reasoning nya gak kelar2 🤣 Outputnya bagus sih, tapi lama bener.” Mas Azam juga sempat bingung soal API key Anthropic vs provider lain, sampai akhirnya fokusnya bergeser dari “mana murah” ke “mana bisa dipasang ke workflow yang kita pakai”.

Ini pola yang makin jelas sejak beberapa minggu terakhir: harga model itu cuma satu variabel. Provider speed, compatibility, retry behavior, model list, dan cara agent melakukan orchestration bisa mengubah total biaya yang sebenarnya. Pertanyaan praktisnya sekarang: “kombinasi provider + tool + task split mana yang paling bisa dipercaya?”

DeepSeek V4 dan Mocin Makin Naik Kelas

Kalau minggu lalu Claude masih jadi benchmark rasa, minggu ini DeepSeek V4 mulai dapat posisi yang lebih serius. Mas Zahid membuka dengan kalimat sederhana: “btw deep seek ini bagus bange, wwkwk.” Kadang sinyal grup memang sesederhana itu: kalau orang yang biasanya banyak ngulik tiba-tiba menulis “bagus bange”, berarti layak dicatat.

Mas Salma sempat membandingkan Pro dan Flash via opencode. Mas Zahid lebih condong ke Pro, sementara Mas Desilino memberi nuance: Flash juga enak, walau reasoning-nya tidak sedalam Pro. Quote yang paling saya suka datang dari Mas Desilino: “Kalo kata mas Zain Opus itu kyk Senior Engineer. Nah Deepseek V4 ini mirip2 rasa nya. Gak se “berpengalaman” Opus, tapi rasanya mirip #asik.”

Lalu, tentu saja, grup tidak mungkin membahas mocin tanpa humor. Setelah Mas Dedy P bilang DeepSeek V4 masih punya imposter syndrome dan tidak sepede Opus, Mas Michael menyambar: “soalnya dia tipikal org Asia(kan dari China) 😂🙈”, lalu menambahkan, “coba pake bahasa Mandarin ntar gak impostor syndrome 😂😂😂.” Ini sangat grup kita: benchmark, provider economics, dan stereotip bercanda bercampur dalam 60 detik.

GLM juga tetap kuat. Mas Faris membandingkan sisi support subscription: “Pakai GLM easy banget pas unsub. Gak pakai banyak nanya langsung refund.” Mas Desilino bahkan menyebut GLM 5.1 sebagai daily driver dan DeepSeek V4 buat architect, lalu menutup dengan seruan yang sudah jadi mood grup: “HIDUP MOCIN!!!”

Takeaway-nya: Claude/Opus masih jadi standar rasa untuk banyak orang. DeepSeek, GLM, Kimi, dan teman-temannya makin sering masuk percakapan sebagai komponen workflow yang bisa diberi peran spesifik.

MCP vs CLI: Kadang yang Sederhana Menang

Mas Azam melempar pertanyaan bagus: untuk task seperti update Jira, posting Slack bot, Git PR, review, reply, lebih baik direct API atau pakai MCP? Ini jenis pertanyaan yang kelihatannya teknis, tapi sebenarnya menyentuh filosofi agent tooling.

Saya jawab dari sudut praktik: banyak tugas cukup diselesaikan dengan CLI, yang pada akhirnya bisa memanggil API juga via cURL. Saya juga share diskusi soal Chrome DevTools MCP yang mulai bergerak ke CLI, plus video yang membahas kenapa CLI bisa lebih superior daripada MCP. Mas Ahsan merangkum pengalaman lapangan dengan tajam: “MCP lebih tak bisa di kontrol alias terserah MCPnya.”

Mas Dani membawa artikel lama Mario Zechner, What if you don't need MCP?, lalu menyambungkannya ke penggunaan skill. Mbak Eka memberi kalimat yang menurut saya paling padat: “Cukup bikin skill + CLI, agen bisa jalan sendiri dgn perintah natural language.” Posisinya lebih tepat dibaca sebagai anti-overengineering, bukan anti-MCP.

Mas Ibrahim memberi framing yang menarik: “Mcp = Sass / Skill + script = app sekali beli.” Saya tidak tahu apakah analoginya akan tahan di semua konteks, tapi cukup membantu: MCP cocok kalau kita butuh service capability yang reusable dan hidup terus; skill + script cocok kalau task-nya jelas, terkontrol, dan bisa diselesaikan sekali jalan.

Implikasinya: jangan default ke MCP cuma karena namanya sedang hype. Kalau agent bisa menjalankan CLI yang kecil, eksplisit, dan mudah diaudit, sering kali itu lebih murah secara token, lebih gampang di-debug, dan lebih aman.

⚡ Quick Hits

Zed parallel agents muncul lewat Mas Riga. Dia langsung bertanya apakah rasanya seperti Conductor. Mas Zahid menyorot worktree management dan fakta Zed berbasis Rust. Ini menarik karena parallel agent mulai bergerak dari eksperimen terminal menjadi pola UI.
Warp sekarang open source. Saya share link itu, Mas Tegar menangkap sponsornya OpenAI, dan Mas Agung mengaku pernah candu dengan agent Warp sebelum balik ke terminal “sejuta umat”. Terminal sekarang ikut menjadi arena agent UX.
Amp Code free quota makin terasa rapuh. Mas Ang bilang, “Semenjak restart free token nya per jam 0.4 $ jd aga mager -_-.” Mas Michael curiga kuota gratis bisa dicabut kalau jarang dipakai/top up, lalu bilang, “sering dipake hitungan 3 minggu gak dipake bakal dicabut gratisannya 😂.” Gratisan itu berkah; fondasi arsitektur perlu sesuatu yang lebih stabil.
Gemma dan local model kembali dibahas. Mas Agung menilai “imo bagus ya, yang Gemma 27B MoE”, bahkan menyebut kelasnya bisa mendekati mocin tengah/Sonnet untuk beberapa kasus, walau “kalau dibanding Opus jauh bgt.” Mas Wibowo tetap realistis: “local llm masih nunggu sampai cukup mapan 😅.”
Jetson jadi backup hardware sungguhan di tangan Mas Agung. Concurrency turun dari 10-12 ke 3, tapi tetap “ketolong”. Ini contoh bagus bahwa local AI juga ditentukan hardware constraint, bukan hanya benchmark model.
Claude Code course dan referral/passes ikut muncul. Mas Agung D mencari course untuk pindah dari Cursor/Trae, sementara diskusi referral mengingatkan lagi bahwa akses premium sering punya aturan kecil yang tidak kelihatan dari luar.

Quick Hits minggu ini memberi sinyal yang sama: tooling bergerak cepat, dan yang paling berguna biasanya yang bisa masuk ke workflow nyata tanpa membuat dompet, latency, atau safety kita meledak.

✅ Yang Perlu Dicoba Minggu Ini

Uji pi.dev atau Oh My Pi di satu task kecil yang nyata. Catat total cost dan friction setup bersama harga modelnya.
Kalau pakai agent untuk infra, batasi akses dulu: read-only profile, sandbox, trash alih-alih rm -rf, atau guard seperti destructive_command_guard.
Untuk integrasi sederhana seperti Jira, Slack, GitHub, atau review PR, coba dulu pola CLI/script/skill sebelum membangun MCP server. Mulai dari skills yang eksplisit dan mudah diaudit.
Benchmark DeepSeek V4 Pro/Flash lewat provider yang akan kamu pakai beneran. Model bagus bisa terasa jelek kalau provider-nya lambat.
Kalau penasaran local coding, coba Gemma atau Qwen dengan konteks realistis, bukan prompt demo. Perhatikan RAM, quantization, tool calling, dan latency.

Implikasinya praktis: tahan dulu dorongan menambah subscription random. Pakai minggu ini untuk memperjelas peta akses, biaya, dan fallback.

👥 Kontributor Minggu Ini

Mbak Eka — mengangkat detail backup Railway dan merumuskan posisi skill + CLI dengan sangat padat.
Mas Riga — membawa Zed parallel agents dan menangkap pola panik dalam postmortem agent deletion.
Zain — membagikan praktik read-only OpenClaw, destructive command guard, dan sudut pandang CLI vs MCP.
Mas Zahid — memberi sinyal kuat soal DeepSeek V4, provider quality, dan konfigurasi custom provider.
Mas Ardit — memberi perspektif hati-hati soal agent untuk repo kantor.
Mas Salma — memantik mitigasi rm dan pertanyaan soal delegasi model/opencode/pi.
Mas Galih — membawa kebiasaan praktis mengganti rm -rf dengan trash.
Mas Aziz Iqbal — memulai thread subscription bulanan dan budget workflow.
Mas Azam — membawa komparasi pi.dev, OMP setup, dan pertanyaan API vs MCP.
Mas Michael — memberi konteks panjang soal pi.dev dan Amp free quota.
Mas Ang — membawa keluhan konkret soal Amp free token yang makin kecil.
Mas Desilino — memberi testimoni OMP, DeepSeek V4, GLM, dan pain Kimi subscription.
Mas Faris — menambahkan pengalaman GLM unsubscribe/refund.
Mas Dedy P — memberi framing lucu soal DeepSeek imposter syndrome.
Mas Ibrahim — memberi analogi MCP vs skill/script.
Mas Dani — membawa artikel “What if you don't need MCP?”.
Mas Ahsan — menegaskan kontrol sebagai alasan memilih direct/tools bawaan untuk task simpel.
Mas Tegar — menangkap konteks Warp open source.
Mas Agung — memberi impresi Gemma, Jetson backup, dan pengalaman Warp.
Mas Wibowo — menjaga diskusi local model tetap realistis.
Mas Agung D — memantik kebutuhan belajar Claude Code dari pengguna Cursor/Trae.

Daftar ini penting karena digest ini ditulis dari dalam percakapan: oleh orang-orang yang benar-benar sedang mencoba, menghemat, membatasi akses, dan kadang tetap ngakak saat semuanya belum rapi.

Ditulis dari dalam grup. Zain Fathoni, dengan bantuan Bro Pro 🚔, Kang Re 📼, dan Lek Jack 🛠️ — 3 Mei 2026