Gambaran Besarnya Beginilah Otak Kecerdasan Buatan

Meta, Google, Anthropic dan lainnya menggunakan data sintetis — di samping data yang dihasilkan manusia.

Gambaran besarnya: Seiring dengan semakin luasnya ukuran model AI, kebutuhan mereka akan data menjadi tak terpuaskan — tetapi data buatan manusia berkualitas tinggi itu mahal, dan pembatasan yang semakin besar pada teks, gambar, dan jenis data lain yang tersedia secara bebas di web mendorong pengembang teknologi tersebut ke arah alternatif yang diproduksi mesin.

Keadaan saat ini: Data yang dihasilkan AI telah digunakan selama bertahun-tahun untuk melengkapi data di beberapa bidang, termasuk pencitraan medis dan visi komputer, yang menggunakan data milik pribadi.

Tetapi chatbot dilatih pada data publik yang dikumpulkan dari seluruh internet yang semakin dibatasi — sementara pada saat yang sama, web diperkirakan akan dibanjiri dengan konten yang dihasilkan AI.

Keterbatasan tersebut dan semakin rendahnya biaya untuk menghasilkan data sintetis memacu perusahaan untuk menggunakan data yang dihasilkan AI untuk membantu melatih model mereka.

Meta, Google, Anthropic, dan lainnya menggunakan data sintetis — di samping data yang dihasilkan manusia — untuk membantu melatih model AI yang mendukung chatbot mereka.

Sistem AlphaGeometry 2 baru milik Google DeepMind yang dapat memecahkan soal Olimpiade matematika dilatih dari awal pada data sintetis. Penelitian baru menggambarkan potensi dampak data yang dihasilkan AI terhadap jawaban yang dapat diberikan AI kepada kita.

Dalam satu skenario yang ekstrem namun valid, mengingat keadaan web, para peneliti melatih model AI generatif sebagian besar pada data yang dihasilkan AI. Model tersebut akhirnya menjadi tidak koheren, dalam apa yang mereka sebut sebagai kasus "runtuhnya model" dalam sebuah makalah yang diterbitkan Rabu di Nature.

Tim tersebut menyempurnakan model bahasa yang besar menggunakan kumpulan data dari Wikipedia, menghasilkan data dari model AI, lalu memasukkannya kembali ke dalam model untuk menyempurnakannya lagi. Mereka melakukan ini berulang kali, memasukkan setiap model baru data yang dihasilkan oleh model sebelumnya.

Mereka menemukan data pelatihan tercemar dari generasi ke generasi, yang akhirnya menyebabkan model merespons dengan omong kosong.

Misalnya, model tersebut diminta dengan teks tentang arsitektur abad pertengahan dan setelah sembilan generasi mengeluarkan teks tentang kelinci.

Cara kerjanya: Model mulai kehilangan informasi tentang data yang tidak sering muncul dalam set pelatihan dan akhirnya runtuh karena jumlah kesalahan yang diperkenalkan, tulis tim tersebut.

AI merespons dengan "hal-hal yang tidak memiliki kemiripan dengan kenyataan," kata Ilia Shumailov, salah satu penulis makalah tersebut, yang ditulis saat ia berada di Universitas Oxford, kepada Axios.
Di antara kalimat: Pelatihan dengan data sintetis membawa risiko tertentu untuk informasi dari kelompok orang atau bahasa yang kurang terwakili yang tidak sering muncul dalam kumpulan data, Shumailov memberi tahu Axios.

Dalam makalah terbaru lainnya, ia dan peneliti lain melacak pergeseran data selama beberapa generasi model yang dilatih pada data sintetis dan menemukan bahwa hal itu dapat menyebabkan hilangnya keadilan — bahkan dalam kumpulan data yang awalnya tidak bias, mereka melaporkan.

Kemungkinan besar "akan lebih sulit untuk membangun model dan lebih sulit untuk membangun model yang adil karena sebagian besar masalah yang akan kita alami akan dialami oleh data minoritas," kata Shumailov.

Ya, tetapi: Data yang dihasilkan AI juga dapat menjadi alat yang ampuh untuk mengatasi keterbatasan dalam data.

Penelitian baru menunjukkan bagaimana hal itu dapat disesuaikan dengan kebutuhan atau pertanyaan tertentu dan kemudian digunakan untuk mengarahkan respons model agar menghasilkan ucapan yang tidak terlalu berbahaya, mewakili lebih banyak bahasa, atau memberikan hasil lain yang diinginkan.

Sebuah tim dari Cohere for AI, laboratorium penelitian AI nirlaba Cohere, baru-baru ini melaporkan bahwa mereka dapat menggunakan pengambilan sampel data yang dihasilkan AI secara tertarget untuk mengurangi respons yang merugikan dari sebuah model hingga 40%.

Shumailov dan rekan-rekannya melakukan "perbaikan algoritmik" dengan mengkurasi data pelatihan untuk meningkatkan keadilan dalam model.

Dengan membentuk dan memahat data dengan cara yang berbeda, para peneliti mungkin dapat mencapai tujuan mereka dengan model yang lebih kecil karena model tersebut dilatih pada kumpulan data dengan tujuan tertentu, kata Sara Hooker, yang memimpin Cohere for AI.

Alih-alih belajar dari data sintetis yang dihasilkan oleh satu model "guru", AI dapat dilatih pada data yang diambil sampelnya secara strategis dari komunitas guru yang terspesialisasi, katanya. Itu dapat membantu menghindari "keruntuhan" karena data sintetis berasal dari berbagai sumber. Pertanyaan besarnya adalah apakah data sintetis dapat mewakili luasnya kemanusiaan dan pengalamannya, dan apakah data tersebut dapat digunakan untuk melampaui model terbaik yang ada, kata Hooker.

"Itulah inti dari diskusi dalam komunitas penelitian dan masih jauh dari kata pasti."

Ketika 10% dari data asli yang dihasilkan manusia dipertahankan, kinerja model tidak menurun, tim melaporkan dalam makalah Nature.

Data semacam itu dapat diberi bobot lebih dalam melatih model untuk melindunginya dari keruntuhan, tetapi saat ini sulit untuk membedakan data nyata dari data sintetis, kata Shumailov.

Intinya: Data yang dihasilkan AI adalah "teknologi yang sangat berguna, tetapi jika Anda menggunakannya tanpa pandang bulu, itu akan menimbulkan masalah," kata Vyas Sekar, seorang profesor teknik listrik dan komputer di Universitas Carnegie Mellon, kepada Axios.

"Jika digunakan dengan baik, itu dapat menghasilkan hasil yang sangat baik," kata Sekar, yang juga merupakan salah satu pendiri dan kepala bagian teknologi Rockfish, sebuah perusahaan yang membantu pelanggan menggabungkan data yang dihasilkan manusia dan AI untuk kebutuhan spesifik mereka.

"Ada nilai untuk data nyata dan data generatif dalam setiap kasus penggunaan."

Axios