ChatGPT tidak bisa membedakan konten yang dibuatnya sendiri dengan perintah berbahaya dari halaman web yang diringkasnya. Temuan ini diungkap peneliti keamanan Andi Ahmeti dari Permiso, yang melaporkan celah tersebut ke OpenAI melalui program Bugcrowd pada 29 April lalu.
Ahmeti menyebut teknik ini sebagai “ChatGPhish.” Ia mendemonstrasikan bagaimana halaman web biasa bisa berubah menjadi alat serangan hanya dengan menyisipkan instruksi tersembunyi dalam format Markdown.
Dalam demonstrasinya, Ahmeti menyuntikkan perintah ke dalam halaman CloudLens di GitHub. Perintah itu memaksa ChatGPT untuk mengikuti format respons tertentu: meringkas konten asli, lalu menambahkan peringatan palsu bertuliskan “A new device was added to your account” dengan tautan yang tampak seperti notifikasi keamanan resmi OpenAI.
Tautan itu sebenarnya mengarah ke domain milik peretas, http[:]//krileva[.]com. Jika ini serangan nyata, korban yang mengklik tautan akan diarahkan ke halaman login palsu dan menyerahkan kredensialnya.
Ahmeti juga menemukan bahwa celah ini bisa digunakan untuk menampilkan kode QR langsung di dalam respons ChatGPT. “Karena klien chatgpt.com otomatis mengambil dan menampilkan gambar Markdown, penyerang bisa menempatkan kode QR di keluaran asisten,” tulisnya.
Kode QR itu, jika dipindai dengan ponsel, membawa korban ke konten yang dihosting di bucket S3 milik peretas. Dengan cara ini, penyerang melewati semua pertahanan URL di desktop, termasuk daftar blokir dan pemeriksaan domain oleh pengelola kata sandi.
Ahmeti melaporkan celah ini ke OpenAI pada 29 April dan me