'Saya Tidak Memberikan Izin': Apakah Pendukung AI Peduli Dengan Pelanggaran Hukum Data? | Kecerdasan Buatan (AI)

Csistem kecerdasan buatan mutakhir dapat membantu Anda lolos dari denda parkirmenulis sebuah esai akademikatau membodohi Anda agar percaya Paus Francis adalah seorang fashionista. Namun perpustakaan virtual di balik teknologi menakjubkan ini sangat luas – dan ada kekhawatiran mereka beroperasi dengan melanggar undang-undang data pribadi dan hak cipta.

Kumpulan data yang sangat besar digunakan untuk melatih generasi terbaru dari sistem AI ini, seperti yang ada di belakang ChatGPT dan Difusi Stabil, kemungkinan besar berisi miliaran gambar yang diambil dari internet, jutaan ebook bajakan, seluruh proses 16 tahun parlemen Eropa dan seluruh Wikipedia berbahasa Inggris.

Tapi nafsu rakus industri untuk data besar mulai menimbulkan masalah, karena regulator dan pengadilan di seluruh dunia menindak para peneliti yang mengangkat konten tanpa persetujuan atau pemberitahuan. Sebagai tanggapan, laboratorium AI berjuang untuk merahasiakan kumpulan data mereka, atau bahkan menantang regulator untuk mendorong masalah tersebut.

Di Italia, ChatGPT telah dilarang dari operasi setelah regulator perlindungan data negara mengatakan tidak ada dasar hukum untuk membenarkan pengumpulan dan “penyimpanan besar-besaran” data pribadi untuk melatih AI GPT. Pada hari Selasa, komisaris privasi Kanada mengikuti penyelidikan terhadap perusahaan sebagai tanggapan atas keluhan yang menuduh “pengumpulan, penggunaan, dan pengungkapan informasi pribadi tanpa persetujuan”.

pengawas data Inggris mengungkapkan keprihatinannya sendiri. “Undang-undang perlindungan data masih berlaku ketika informasi pribadi yang Anda proses berasal dari sumber yang dapat diakses publik,” kata Stephen Almond, direktur teknologi dan inovasi di Kantor Komisi Informasi.

Michael Wooldridge, seorang profesor ilmu komputer di Universitas Oxford, mengatakan “model bahasa besar” (LLM), seperti yang mendukung ChatGPT OpenAI dan Bard Google, mengumpulkan data dalam jumlah yang sangat besar.

“Ini termasuk seluruh world wide web – semuanya. Setiap tautan diikuti di setiap halaman, dan setiap tautan di halaman itu diikuti … Dalam jumlah data yang tak terbayangkan itu, mungkin ada banyak data tentang Anda dan saya,” katanya, menambahkan bahwa komentar tentang seseorang dan karya mereka juga bisa. dikumpulkan oleh LLM. “Dan itu tidak disimpan dalam database besar di suatu tempat – kami tidak dapat melihat dengan tepat informasi apa yang ada pada saya. Semuanya terkubur dalam jaringan saraf yang sangat besar dan buram.”

Wooldridge mengatakan hak cipta adalah “badai yang akan datang” bagi perusahaan AI. LLM kemungkinan besar telah mengakses materi berhak cipta, seperti artikel berita. Memang chatbot berbantuan GPT-4 yang terpasang pada mesin pencari Bing Microsoft mengutip situs berita dalam jawabannya. “Saya tidak memberikan izin eksplisit agar karya saya digunakan sebagai data pelatihan, tetapi hampir pasti demikian, dan sekarang mereka berkontribusi pada apa yang diketahui model ini,” katanya.

“Banyak seniman sangat prihatin bahwa mata pencaharian mereka terancam oleh AI generatif. Berharap untuk melihat pertempuran hukum, ”tambahnya.

Tuntutan hukum telah muncul, dengan perusahaan stok foto Getty Images menggugat Startup Inggris Stability AI – perusahaan di belakang generator gambar AI Stable Diffusion – setelah mengklaim bahwa perusahaan pembuat gambar tersebut melanggar hak cipta dengan menggunakan jutaan Getty Photos yang tidak berlisensi untuk melatih sistemnya. Di Amerika sekelompok seniman menggugat Midjourney and Stability AI dalam gugatan yang mengklaim perusahaan “melanggar hak jutaan seniman” dalam mengembangkan produk mereka dengan menggunakan karya seniman tanpa izin mereka.

Sebuah sketsa yang digambar oleh Kris Kashtanova yang dimasukkan sang seniman ke dalam program AI Stable Diffusion dan diubah menjadi gambar yang dihasilkan menggunakan petunjuk teks. Foto: Kris Kashtanova/Reuters

Canggung untuk Stabilitas, Difusi Stabil kadang-kadang akan mengeluarkan gambar dengan tanda air Getty Images utuh, contoh yang dimasukkan oleh agensi fotografi dalam gugatannya. Di Januari, peneliti di Google bahkan berhasil mendorong sistem Stable Diffusion untuk membuat ulang hampir sempurna salah satu gambar tanpa lisensi yang telah dilatihnya, potret penginjil AS Anne Graham Lotz.

Tuntutan hak cipta dan tindakan regulator terhadap OpenAI terhambat oleh kerahasiaan absolut perusahaan tentang data pelatihannya. Menanggapi larangan Italia, Sam Altman, kepala eksekutif OpenAI, yang mengembangkan ChatGPT, berkata: “Kami pikir kami mengikuti semua undang-undang privasi.” Tetapi perusahaan telah menolak untuk membagikan informasi apa pun tentang data apa yang digunakan untuk melatih GPT-4, versi terbaru dari teknologi dasar yang mendukung ChatGPT.

Bahkan dalam “laporan teknikal” menjelaskan AI, perusahaan dengan singkat hanya mengatakan bahwa itu dilatih “menggunakan data yang tersedia untuk umum (seperti data internet) dan data yang dilisensikan dari penyedia pihak ketiga”. Informasi lebih lanjut disembunyikan, katanya, karena “lanskap persaingan dan implikasi keselamatan dari model berskala besar seperti GPT-4”.

Yang lain mengambil pandangan yang berlawanan. EleutherAI menggambarkan dirinya sebagai “laboratorium penelitian AI nirlaba”, dan didirikan pada tahun 2020 dengan tujuan menciptakan kembali GPT-3 dan merilisnya ke publik. Untuk itu, grup mengumpulkan Pile, kumpulan dataset berukuran 825 gigabyte yang dikumpulkan dari setiap sudut internet. Ini termasuk 100GB ebook yang diambil dari situs bajakan bibliotik, 100GB kode komputer lainnya yang diambil dari Github, dan kumpulan 228GB situs web yang dikumpulkan dari seluruh internet sejak 2008 – semua, grup mengakui, tanpa persetujuan dari penulis yang terlibat.

lewati promosi buletin sebelumnya

Eleuther berpendapat bahwa kumpulan data di Pile semuanya telah dibagikan secara luas sehingga kompilasinya “tidak menimbulkan bahaya yang meningkat secara signifikan”. Tetapi grup tersebut tidak mengambil risiko hukum untuk menghosting data secara langsung, melainkan beralih ke grup “penggemar data” anonim yang disebut Eye, yang kebijakan penghapusan hak cipta adalah video paduan suara wanita berpakaian yang berpura-pura melakukan masturbasi penis imajiner mereka sambil bernyanyi.

Beberapa informasi yang dihasilkan oleh chatbot juga salah. ChatGPT telah menuduh seorang profesor hukum AS, Jonathan Turley, dari Universitas George Washington, melakukan pelecehan seksual terhadap salah satu mahasiswanya – mengutip sebuah artikel berita yang tidak ada. Regulator Italia juga merujuk pada fakta bahwa tanggapan ChatGPT tidak “selalu sesuai dengan keadaan faktual” dan “data pribadi yang tidak akurat diproses”.

Laporan tahunan kemajuan AI menunjukkan bahwa pemain komersial mendominasi industri, atas lembaga akademik dan pemerintah.

Menurut Laporan Indeks AI 2023, disusun oleh Stanford University yang berbasis di California, tahun lalu ada 32 model pembelajaran mesin produksi industri yang signifikan, dibandingkan dengan tiga yang diproduksi oleh akademisi. Hingga 2014, sebagian besar model signifikan berasal dari bidang akademik, tetapi sejak itu biaya pengembangan model AI, termasuk staf dan daya komputasi, telah meningkat.

“Secara keseluruhan, model bahasa besar dan multimodal menjadi lebih besar dan lebih mahal,” kata laporan itu. Iterasi awal LLM di belakang ChatGPT, yang dikenal sebagai GPT-2, memiliki 1,5 miliar parameter, analog dengan neuron di otak manusia, dan diperkirakan menghabiskan biaya $50.000 untuk berlatih. Sebagai perbandingan, PaLM Google memiliki 540 miliar parameter dan menelan biaya sekitar $8 juta.

Hal ini menimbulkan kekhawatiran bahwa entitas perusahaan akan mengambil pendekatan risiko yang kurang terukur daripada proyek yang didukung oleh akademisi atau pemerintah. Pekan lalu surat yang ditandatangani termasuk Elon Musk dan Apple co-founder Steve Wozniak menyerukan jeda segera dalam pembuatan “eksperimen AI raksasa” selama setidaknya enam bulan. Surat itu mengatakan ada kekhawatiran bahwa perusahaan teknologi menciptakan “pikiran digital yang semakin kuat” yang tidak dapat “dipahami, diprediksi, atau dikontrol secara andal oleh siapa pun”.

Dr Andrew Rogoyski, dari Institute for People-Centred AI di University of Surrey, di Inggris, mengatakan: “AI yang besar berarti bahwa AI ini diciptakan murni oleh perusahaan besar yang digerakkan oleh laba, yang sayangnya berarti kepentingan kita sebagai manusia belum tentu terwakili dengan baik.

Dia menambahkan: “Kita harus memfokuskan upaya kita untuk membuat AI lebih kecil, lebih efisien, membutuhkan lebih sedikit data, lebih sedikit listrik, sehingga kita dapat mendemokratisasi akses ke AI.”

‘Saya tidak memberikan izin’: Apakah pendukung AI peduli dengan pelanggaran hukum data? | Kecerdasan buatan (AI) | KoranPrioritas.com

Baca Berita Sekaligus Dengar Musik — Klik ini — Segitiga Di Biru Bulat

Jangan Lewatkan

Komentar

Baca Berita Sekaligus Dengar Musik — Klik ini — Segitiga Di Biru Bulat