Fakta Bahwa Kita Ikut Andil Menyumbang Data Bagi Kecerdasan Buatan


Booming kecerdasan buatan (AI) dibangun berdasarkan data. Bahwa data itu berasal dari internet, dan data di internet berasal dari kita.


Analisis Washington Post terhadap satu kumpulan data publik yang banyak digunakan untuk pelatihan AI menunjukkan seberapa luas industri AI saat ini telah memanfaatkan 30 tahun penerbitan web untuk melatih jaringan saraf mereka.

Pernah menulis blog? Membuat halaman web? Berposting di media sosial? Kemungkinan kata-kata Anda telah berkontribusi pada pendidikan chatbot AI di mana pun.

Gambaran besarnya: Meskipun penggunaan kembali kata-kata secara besar-besaran ini memicu pertikaian hukum yang penting mengenai apakah hal tersebut harus dianggap sebagai penggunaan wajar atau pencurian, hal ini juga menginspirasi perhitungan pribadi bagi jutaan orang yang postingannya membangun dunia online saat ini.

Tanpa disadari kita juga ikut membuat database ekspresi manusia yang tidak lengkap namun kaya.

Basis data tersebut memungkinkan senam penyelesaian kalimat ChatGPT dan pesaingnya yang sangat mahir.

Karena alat AI visual seperti Dall-E, Midjourney, dan Stable Diffusion menjadi populer sebelum chatbot verbal seperti ChatGPT mulai populer, pembuat visual —fotografer, ilustrator, dan seniman hebat — adalah yang pertama bergulat dengan realisasi ini.

Musisi menghadapi pencerahan yang sama, ketika mereka menghadapi faksimili karya mereka yang disulap oleh AI – seperti kolaborasi minggu lalu (yang belum pernah terjadi) antara Drake dan the Weeknd, “Heart on My Sleeve.”

Namun jauh lebih banyak dari kita yang mengetik beberapa kata di internet daripada merekam lagu atau membuat gambar.

Proyek Washington Post memungkinkan Anda memasukkan nama domain internet apa pun untuk melihat apakah dan seberapa besar kontribusinya terhadap satu basis data pelatihan AI. (Ini bukan OpenAI yang sama yang digunakan untuk ChatGPT atau proyek lainnya; OpenAI belum mengungkapkan sumber data pelatihannya.)

“Kumpulan data berisi lebih dari setengah juta blog pribadi, mewakili 3,8 persen” dari total “token,” atau potongan bahasa terpisah.

Jika Anda memiliki riwayat online apa pun, peluang pencarian mandiri yang disediakan oleh penelitian Post sangat menarik, seperti mencari nama Anda sendiri di Google. (Ada alat pencarian serupa yang disebut "Sudahkah Saya Dilatih?" untuk visual.)

Kehausan AI akan data pelatihan membawa sejarah 30 tahun internet populer ke sudut pandang baru.

Terobosan AI saat ini tidak dapat terwujud tanpa tersedianya simpanan digital dan tempat pembuangan sampah atas informasi, ide, dan perasaan yang dihasilkan oleh internet.

Dari sudut pandang ini, keberadaan “kumpulan” data yang sangat besar ini merupakan konsekuensi penting yang tidak disengaja dari kebangkitan web itu sendiri.

Pada tahun 1995, ketika satu generasi jatuh cinta dengan "www" dan browser, atau sepuluh tahun kemudian, ketika generasi lain merayakan munculnya blog dan "kebijaksanaan orang banyak", hasil ini tidak terlihat.

Pada awal tahun 2010-an, gejolak revolusi pembelajaran mesin mulai membuat beberapa pakar yang berpandangan jauh ke depan merasa tidak nyaman. Namun butuh waktu lama untuk menyadari bahwa seluruh web mungkin akan berubah menjadi bahan pelatihan AI.

Saat ini, konsekuensi yang tidak diinginkan ini menjadi hal yang utama dalam pengalaman online kita — mengingatkan kita bahwa semua yang kita lakukan saat ini dengan AI pada gilirannya akan membentuk masa depan dengan cara yang tidak dapat kita ramalkan.


Scott Rosenberg - Axios
Next Post Previous Post