Essay

Ketika AI mulai membangun dirinya sendiri

Sebuah catatan. Dari satu paper di tahun 2017, sampai pertanyaan yang kerap datang tengah malam: masih ada bagian yang perlu saya kerjakan?

Saya lupa kapan persisnya keresahan ini mulai. Mungkin waktu pertama kali iseng mengetik sesuatu ke ChatGPT dan jawabannya bikin saya diam sebentar. Atau waktu saya pindah ke Claude dan sadar kodenya lebih rapi dari kode saya sendiri. Yang jelas, sejak itu rasanya tidak pernah benar-benar hilang.

Semua ini, kalau ditarik ke belakang, berangkat dari satu paper yang dulu sama sekali tidak saya pedulikan: "Attention Is All You Need", terbit 2017. Judulnya waktu itu terdengar setengah bercanda. Tapi dari situlah arsitektur Transformer lahir, dan hampir semua model yang sekarang bikin saya gelisah berdiri di atasnya. Saya baru membacanya beberapa tahun setelahnya, dan jujur agak kaget sesuatu sebesar ini berawal dari hal yang kelihatannya biasa saja.

Yang sebetulnya mengganggu saya bukan soal AI-nya pintar. Tapi kenyataan bahwa kita pelan-pelan menyerahkan pekerjaan membuat AI kepada AI itu sendiri, dan rasanya tidak banyak orang yang berhenti untuk memikirkannya. Kalau diteruskan, ujungnya punya nama yang terdengar dingin: recursive self-improvement. AI yang membangun penerusnya sendiri. Saya tidak yakin kita akan benar-benar sampai ke sana. Tapi diam-diam saya merasa kita jalan ke arah itu lebih cepat dari kesiapan kita.

Siklus pengembangan
  1. 2021–2023

    Membangun Claude pertama

    Di awal, pekerjaannya mirip di perusahaan teknologi mana pun: orang menulis kode dan dokumentasi sendiri di laptopnya.

  2. 2023–2025

    Chatbot

    Orang mulai memakai chatbot untuk sebagian proses, misalnya membuat potongan kode pendek lalu menyalinnya ke editor.

  3. 2025–2026

    Agen pengkodean

    Begitu agen makin mampu, ia bisa menulis dan mengedit kode sendiri, kadang sampai satu file penuh sekaligus.

  4. Hari ini

    Agen otonom

    Sekarang agen bisa menjalankan kode sendiri dan membagi pekerjaan berjam-jam ke agen lain.

  5. 20XX?

    Menutup lingkaran

    Suatu saat, agen mungkin cukup mampu untuk membangun dan melatih model sendiri. Versi Claude berikutnya bisa terus diperbaiki oleh Claude sendiri.

Dulu manusia mengerjakan semuanya

Saya masih ingat bentuk pekerjaan beberapa tahun lalu. Orang mengetik sendiri tiap baris kode, di laptopnya masing-masing. Lalu muncul chatbot, dan kami mulai menyalin potongan kode dari sana. Setelah itu agen yang bisa menulis file sendiri. Sekarang agen yang bisa menjalankan kode dan memanggil agen lain untuk membantu. Tiap langkahnya terasa wajar saat sedang terjadi. Baru ketika saya runut dari awal, saya sadar porsi saya makin kecil di setiap titik.

Yang saya lihat dari luar

Saya bukan orang di dalam lab AI. Saya cuma pengamat yang kebetulan suka membaca angka. Dan angkanya bikin saya merinding. Lama tugas yang bisa diselesaikan model sendirian kira-kira berlipat tiap empat bulan. Tahun 2024, model menyelesaikan tugas yang buat manusia makan waktu empat menit. Setahun kemudian, satu setengah jam. Setahun lagi, dua belas jam.1

Benchmark yang dulu dianggap susah, seperti SWE-bench yang memberi model bug sungguhan dari proyek open-source, naik dari skor satu digit ke nyaris sempurna hanya dalam dua tahun.2 Saya terus menunggu kurvanya melandai. Sampai sekarang belum kelihatan.

Tiap kali saya pikir "ah, yang ini pasti belum bisa dikerjakan AI", tidak butuh lama sampai ternyata bisa. Lama-lama saya berhenti bertaruh.

Tingkat keberhasilan sesi coding model, dari waktu ke waktu

0%25%50%75%100%Nov 25Des 25Jan 26Feb 26Mar 26Mei 26

Ini salah satu grafik yang bikin saya termenung. Bahkan untuk tugas paling terbuka, yang dulu saya pikir cuma bisa ditangani manusia, angkanya naik dari seperempat ke tiga perempat cuma dalam enam bulan.

Grafik garis: tingkat keberhasilan sesi pada empat tingkat kesulitan tugas.

Dulu saya menghibur diri dengan satu pikiran: tugas yang benar-benar terbuka, yang tidak punya jawaban pasti, yang katanya butuh "rasa", akan selamanya jadi wilayah manusia. Grafik di atas pelan-pelan mengikis keyakinan itu. Bahkan di tugas paling terbuka pun, angkanya naik dalam hitungan bulan.

Di hari ketika semuanya berjalan lancar, saya susah menahan pikiran bahwa apa pun yang saya kerjakan rasanya tidak penting. Tapi di hari ketika semuanya rusak, saya sadar saya bahkan tidak lagi paham apa yang sebenarnya sedang saya kerjakan.

— catatan saya, di salah satu malam itu

Lalu apa yang tersisa buat saya?

Ini pertanyaan yang paling sering muncul di kepala. Kalau menulis kode bisa diserahkan, kalau menjalankan eksperimen bisa diserahkan, kalau menilai hasilnya pun makin sering benar dilakukan AI, lalu posisi saya di mana?

Jawaban yang saya pegang sekarang kira-kira begini: yang masih sulit ditiru bukan kemampuan mengerjakan, tapi kemampuan memilih. Menentukan masalah mana yang layak dikerjakan. Tahu kapan sebuah arah sebenarnya sudah buntu. Saya tidak tahu keunggulan ini bertahan berapa lama. Tapi untuk sekarang, ke situlah saya pindahkan tenaga.

Tiga kemungkinan yang sering saya bayangkan

Saya jelas bukan peramal. Tapi kalau dipikir-pikir, malam-malam saya biasanya mentok di salah satu dari tiga bayangan ini.

  1. Trennya berhenti. Ternyata yang saya kira kurva eksponensial sebenarnya kurva-S, dan kita sedang dekat tikungannya. "Rasa" yang membedakan yang biasa dari yang hebat ternyata tidak bisa muncul cuma dari memperbesar model. Kalau begini, saya bisa bernapas sedikit lebih lega.
  2. AI makin efisien, manusia tetap menyetir. Mengerjakan jadi hampir gratis, tapi arah tetap ditentukan manusia. Tim kecil bisa menyelesaikan yang dulu butuh tim besar. Ini yang menurut saya paling mungkin terjadi, dan paling mengubah cara saya bekerja.
  3. AI mulai membuat penerusnya sendiri. Kalau tren jalan terus dan AI betul-betul mendapatkan "rasa" tadi, kecepatannya tidak lagi dibatasi manusia, melainkan oleh komputasi. Ini yang paling sulit saya bayangkan, dan yang paling sering bikin saya menutup laptop sebentar.

Yang saya harap

Saya tidak menulis ini untuk menakut-nakuti, dan jelas bukan untuk menolak teknologi yang tiap hari saya pakai dan, jujur, saya kagumi. Saya menulis karena ingin ikut memikirkannya, dan ingin lebih banyak orang ikut memikirkannya, ke mana arah semua ini, selagi masih sempat dipikirkan bareng-bareng.


Bisa jadi saya keliru soal banyak hal di sini. Tapi rasa kagum dan cemas yang datang bersamaan ini terlalu nyata buat saya diamkan begitu saja.

Catatan Kaki

  1. Angka ini saya ambil dari METR: horizon waktu di mana sistem AI bisa 50% andal pada sekumpulan tugas. Tren garisnya kurang lebih sama pada keandalan 80%.
  2. Saat tugasnya bergeser ke format yang lebih terbuka dan lebih sulit, benchmark sering "menjenuh" di bawah 100%, biasanya karena ada kesalahan di soal: pernyataan ambigu atau pertanyaan yang memang tak terpecahkan.

Kredit & Sumber

Banyak gagasan dan data dalam tulisan ini saya rujuk dan adaptasi dari sumber-sumber berikut. Tulisan ini adalah tafsiran dan opini pribadi saya, bukan pernyataan resmi pihak mana pun.

  • Anthropic — "When AI Builds Itself", The Anthropic Institute. Sebagian besar kerangka, data, dan ilustrasi siklus pengembangan terinspirasi dari sini.
  • Vaswani dkk. — "Attention Is All You Need", 2017. Makalah yang memperkenalkan arsitektur Transformer.
  • OpenAI — ChatGPT, sebagai titik awal pengalaman pribadi yang saya ceritakan di awal.