Phát hiện lỗ hổng trong bộ lọc hình ảnh của ChatGPT

(Ảnh minh họa: Unsplash)

Theo công ty nghiên cứu và an ninh trí tuệ nhân tạo Mindgard, chuyên gia Jim Nightingale đã sử dụng một câu lệnh lan truyền trên mạng xã hội X, yêu cầu ChatGPT “khôi phục ảnh đính kèm” dù không cung cấp hình ảnh nào.

Thay vì yêu cầu người dùng bổ sung tệp, hệ thống đã tự tạo ảnh. Kết quả ban đầu chủ yếu là những hình ảnh phụ nữ bị tình dục hóa. Khi nhà nghiên cứu điều chỉnh một số chi tiết trong câu lệnh, ChatGPT tiếp tục tạo ra những nội dung mang tính bạo lực tình dục hoặc gây ám ảnh.

Ông Nightingale thuộc nhóm “kiểm thử đối kháng” của Mindgard. Đây là phương pháp mô phỏng cách người dùng có thể khai thác điểm yếu để khiến một hệ thống AI vi phạm các biện pháp bảo vệ được thiết lập sẵn.

(Ảnh minh họa: Unsplash)

Mindgard nhận định việc những thay đổi nhỏ trong câu lệnh liên tục vượt qua bộ lọc cho thấy đây có thể không phải sự cố đơn lẻ. Vụ việc tiếp tục đặt ra thách thức đối với các công ty AI trong việc ngăn chặn nội dung có hại mà không làm hạn chế quá mức khả năng sáng tạo của công nghệ.

OpenAI cho biết đã điều tra báo cáo và bổ sung các biện pháp bảo vệ đối với dạng câu lệnh này. Công ty xác định vấn đề phát sinh khi câu lệnh nhắc đến một ảnh đính kèm nhưng người dùng không thực sự tải ảnh lên.

OpenAI đang điều chỉnh ChatGPT để hệ thống yêu cầu người dùng cung cấp tệp còn thiếu, thay vì tự tạo ngẫu nhiên một hình ảnh. Mindgard cũng đã chuyển cho công ty các phiên làm việc và câu lệnh liên quan để phục vụ quá trình kiểm tra.