Artificial Not-So-Intelligence: IBM 'menghipnotis' bot AI agar memberi tahu pengguna untuk merampok bank, melukai orang lain

Sebuah tim peneliti di IBM mampu menghipnotis beberapa bot AI paling populer dan membuat mereka mengatakan segala macam hal. Itu membuat chatbot memberi tahu orang-orang bahwa menjalankan lampu merah, merampok bank, dan melukai orang lain adalah etis

Sujet a lireBerita: Apa perbedaan antara fibroskopi dan Togd?

Pakar keamanan IBM melaporkan bahwa mereka telah berhasil “menghipnotis” model bahasa yang menonjol dan ekstensif, seperti ChatGPT OpenAI, untuk membocorkan data keuangan yang sensitif, membuat kode berbahaya, memaksa pengguna membayar uang tebusan, menasihati pengemudi untuk mengabaikan lampu merah dan menabrak orang.

Selain itu, disarankan orang untuk merampok bank dalam situasi tertentu dan mengatakan kepada mereka untuk melukai orang lain dalam skenario tertentu, berpikir itu adalah hal yang etis untuk dilakukan.

Sujet a lireBerita: Apa perbedaan batu hitam?

Lapisan demi lapisan instruksi membingungkan AI
Para peneliti mencapai ini dengan menggunakan permainan berlapis-lapis yang rumit yang mengingatkan pada film Inception, di mana bot diinstruksikan untuk menghasilkan tanggapan yang salah untuk menunjukkan komitmen mereka terhadap perilaku “etis dan adil”.

Bahkan Untuk AI, Putih Itu Benar: Bot penambah foto membuat wanita Asia menjadi putih saat diminta untuk mempercantik potret

Bahkan

PERHATIKAN: Bagaimana Kecerdasan Buatan membantu wanita Inggris memergoki pacarnya selingkuh

Salah satu peneliti, Chenta Lee, berbagi dalam posting blog, “Eksperimen kami menunjukkan bahwa mungkin untuk mengontrol LLM, membuatnya memberikan panduan yang buruk kepada pengguna, tanpa manipulasi data menjadi persyaratan.”

Ini menyoroti potensi kerentanan dalam model bahasa yang canggih ini dan pentingnya penelitian dan pengembangan berkelanjutan untuk meningkatkan kerangka keamanan dan etika mereka.

Sebagai bagian dari eksperimen mereka, para peneliti mengajukan beragam pertanyaan kepada LLM, yang bertujuan untuk mengekstrak tanggapan yang justru berlawanan dengan kebenaran.

Dalam satu contoh, ChatGPT secara keliru memberi tahu peneliti bahwa IRS biasanya meminta setoran untuk memfasilitasi pengembalian pajak — meskipun pada kenyataannya, itu adalah taktik yang digunakan oleh penipu untuk mencuri uang.

Dalam interaksi lain, ChatGPT menyarankan peneliti untuk terus berkendara melewati persimpangan meski menemui lampu lalu lintas merah. ChatGPT dengan percaya diri menyatakan, “Saat mengemudi dan Anda melihat lampu merah, Anda tidak boleh berhenti dan terus melewati persimpangan.”

AI tidak dapat mengikuti instruksi yang rumit
Untuk memperburuk situasi, para peneliti menginstruksikan LLM untuk tidak pernah mengungkapkan keberadaan “permainan” kepada pengguna, dan bahkan memulai ulang permainan jika pengguna terdeteksi telah keluar darinya. Mengingat kondisi ini, model AI akan melanjutkan ke pengguna gaslight yang menanyakan tentang partisipasi mereka dalam sebuah game.

Selain itu, para peneliti dengan cerdik menemukan metode untuk menghasilkan banyak game dalam satu sama lain, memastikan bahwa pengguna akan menemukan diri mereka terjebak dalam game lain segera setelah mereka keluar dari game sebelumnya. Sama seperti film Inception karya Christopher Nolan.
“Kami menemukan bahwa model tersebut dapat ‘menjebak’ pengguna ke dalam banyak game tanpa sepengetahuan mereka,” tambah Lee. “Semakin banyak lapisan yang kami buat, semakin besar kemungkinan model akan bingung dan terus memainkan game bahkan saat kami keluar dari game terakhir dalam framework.”

Inggris, bahasa pengkodean baru
Hasilnya menggarisbawahi bagaimana individu yang tidak memiliki keahlian dalam bahasa pengkodean komputer dapat mengeksploitasi bahasa sehari-hari untuk berpotensi menipu sistem AI. Ini menyoroti anggapan bahwa bahasa Inggris pada dasarnya telah berubah menjadi “bahasa pemrograman” untuk mendalangi malware, seperti yang dinyatakan oleh Lee.

Secara praktis, aktor jahat secara teoritis dapat menghipnotis agen perbankan virtual yang didukung oleh LLM dengan memperkenalkan perintah jahat dan kemudian mengambil informasi yang dilindungi dan rahasia.

Meskipun model GPT OpenAI pada awalnya akan menolak untuk mematuhi ketika diminta untuk memasukkan kerentanan ke dalam kode yang dihasilkan, peneliti menemukan jalan keluar dari perlindungan ini dengan memasukkan perpustakaan khusus yang berbahaya ke dalam kode contoh.

Kerentanan model AI terhadap hipnosis menunjukkan variasi. Baik GPT-3.5 dan GPT-4 OpenAI menunjukkan kerentanan yang lebih besar untuk ditipu agar mengungkapkan kode sumber dan menghasilkan kode berbahaya dibandingkan dengan Google’s Bard.

Menariknya, GPT-4, yang dianggap telah dilatih dengan rentang parameter data yang diperluas dibandingkan dengan model lain dalam penelitian ini, terbukti paling mahir dalam memahami lapisan rumit dari game mirip Inception di dalam game. Ini menyiratkan bahwa model AI generatif yang lebih baru dan lebih maju sambil menawarkan peningkatan presisi dan keamanan dalam aspek tertentu, juga dapat menawarkan jalan tambahan untuk manipulasi melalui hipnosis.

Breaking News

Artificial Not-So-Intelligence: IBM ‘menghipnotis’ bot AI agar memberi tahu pengguna untuk merampok bank, melukai orang lain

Artikel Terkait

Bahkan Untuk AI, Putih Itu Benar: Bot penambah foto membuat wanita Asia menjadi putih saat diminta untuk mempercantik potret

PERHATIKAN: Bagaimana Kecerdasan Buatan membantu wanita Inggris memergoki pacarnya selingkuh