Thảm họa "Vibe Coding": 5.000 ứng dụng AI đang "phơi" sạch dữ liệu lên mạng

Theo Wired, khi AI dần chiếm lĩnh công việc của các lập trình viên hiện đại, giới an ninh mạng cảnh báo các công cụ tự động chắc chắn sẽ đưa vô số lỗi mã nguồn mới vào phần mềm.

Tuy nhiên, khi các công cụ "vibe-coding" cho phép bất kỳ ai tạo ứng dụng web chỉ bằng một cú nhấp chuột, hệ quả bảo mật còn tồi tệ hơn cả những dòng mã lỗi.

Thực tế cho thấy, tình trạng này dẫn đến sự thiếu vắng hoàn toàn bất kỳ biện pháp bảo mật nào, ngay cả đối với những dữ liệu nhạy cảm nhất của cá nhân và doanh nghiệp.

Lỗ hổng từ các nền tảng lập trình AI phổ biến

Nhà nghiên cứu Dor Zvi cùng đội ngũ tại công ty RedAccess đã phân tích hàng nghìn ứng dụng được tạo bởi Lovable, Replit, Base44 và Netlify.

Họ phát hiện hơn 5.000 ứng dụng hoàn toàn không có bất kỳ hình thức bảo mật hay xác thực nào. Nhiều ứng dụng cho phép bất kỳ ai có URL đều truy cập được dữ liệu bên trong.

Một số ứng dụng khác chỉ có những rào cản truy cập hết sức sơ sài, chẳng hạn như chỉ yêu cầu khách truy cập đăng nhập bằng một địa chỉ email bất kỳ.

Ông Dor Zvi nhận định: "Kết quả là các tổ chức đang thực sự làm rò rỉ dữ liệu riêng tư qua các ứng dụng vibe-coding. Đây là một trong những sự kiện lớn nhất từ trước đến nay về việc phơi bày thông tin nhạy cảm ra thế giới."

Zvi cho biết việc tìm kiếm các ứng dụng hớ hênh này diễn ra rất dễ dàng. Các nền tảng như Lovable, Replit, Base44 và Netlify thường cho phép lưu trữ ứng dụng ngay trên tên miền của họ.

Các nhà nghiên cứu chỉ cần dùng Google hoặc Bing để quét các tên miền của các công ty AI này kết hợp với các từ khóa tìm kiếm thông thường để xác định hàng nghìn ứng dụng.

Trong số 5.000 ứng dụng công khai, Zvi tìm thấy gần 2.000 trường hợp lộ dữ liệu riêng tư nghiêm trọng khi kiểm tra kỹ hơn. Tạp chí WIRED đã xác minh nhiều bằng chứng vẫn đang trực tuyến.

Ảnh chụp màn hình cho thấy danh sách phân công công việc của một bệnh viện kèm thông tin cá nhân của bác sĩ, cùng chi tiết chi phí quảng cáo của một công ty.

Các dữ liệu khác bao gồm chiến lược thâm nhập thị trường, nhật ký trò chuyện của khách hàng với đầy đủ tên tuổi, thông tin liên hệ, hồ sơ vận chuyển và các báo cáo tài chính.

Trong một số trường hợp, Zvi cho biết các ứng dụng bị lộ còn cho phép ông chiếm quyền quản trị hệ thống và thậm chí là xóa quyền của các quản trị viên khác.

Riêng với Lovable, Zvi phát hiện nhiều trang web lừa đảo mạo danh các tập đoàn lớn như Bank of America, Costco, FedEx, Trader Joe’s và McDonald’s ngay trên tên miền của nền tảng này.

Phản hồi từ các nhà cung cấp và góc nhìn chuyên gia

Khi WIRED liên hệ, Netlify không phản hồi, còn ba công ty khác thì phản đối và cho rằng các nhà nghiên cứu chưa cung cấp đủ dữ liệu hoặc thời gian để họ kịp xử lý.

Tuy nhiên, các công ty này không hề phủ nhận việc các ứng dụng mà RedAccess tìm thấy đang bị để lộ công khai trên mạng internet.

Ông Amjad Masad (CEO của Replit) phản hồi trên X: "Người dùng có quyền chọn ứng dụng công khai hay riêng tư. Việc ứng dụng công khai có thể truy cập được là hành vi mặc định, và cài đặt này có thể thay đổi chỉ bằng một cú nhấp."

Đại diện Lovable tuyên bố: "Chúng tôi coi trọng các báo cáo về rò rỉ dữ liệu và lừa đảo. Lovable cung cấp công cụ để xây dựng an toàn, nhưng cấu hình ứng dụng cuối cùng là trách nhiệm của người tạo."

Bà Blake Brodie (Trưởng bộ phận PR của Wix - công ty mẹ Base44) cho biết: "Base44 cung cấp đầy đủ công cụ để người dùng tự thiết lập bảo mật và quyền truy cập."

Bà nói thêm: "Việc tắt các lớp bảo vệ này là hành động chủ động của người dùng. Nếu ứng dụng hiển thị công khai, đó là do lựa chọn cấu hình của họ chứ không phải lỗ hổng nền tảng."

Bà Brodie cũng lập luận: "Rất dễ để tạo ra các ứng dụng chứa dữ liệu giả. Nếu không có ví dụ xác thực, chúng tôi không thể đánh giá tính đúng đắn của các cáo buộc này."

Dù vậy, RedAccess khẳng định đã liên hệ với chủ sở hữu của vài chục ứng dụng và họ đã xác nhận dữ liệu bị rò rỉ. Nhiều người dùng đã cảm ơn và lập tức gỡ bỏ ứng dụng sau khi được cảnh báo.

Nhà nghiên cứu Joel Margolis cho biết việc xác minh dữ liệu là thật hay giả đôi khi rất khó khăn. Dữ liệu có thể chỉ là bản nháp hoặc các mẫu thử nghiệm tính năng của ứng dụng.

Bà Brodie của Wix cũng cho rằng hai ví dụ mà WIRED chia sẻ với Base44 có vẻ giống các trang web thử nghiệm hoặc chứa dữ liệu do AI tạo ra.

Đối với các ứng dụng WIRED đã xem xét, họ không thể khẳng định chắc chắn 100% các dữ liệu cá nhân hay doanh nghiệp đó nhạy cảm hoặc có thật hay không.

Tuy nhiên, Margolis khẳng định vấn đề rò rỉ dữ liệu từ ứng dụng AI là có thật. Ông thường xuyên bắt gặp những tình trạng tương tự như những gì Zvi đã liệt kê.

Margolis nhận xét: "Nhân viên marketing muốn tạo web nhưng không có kiến thức bảo mật. AI chỉ làm đúng những gì được yêu cầu, chúng không tự động bảo mật nếu bạn không yêu cầu."

Zvi chỉ ra rằng 5.000 ứng dụng trên mới chỉ là những ứng dụng chạy trên tên miền của nhà cung cấp. Con số thực tế còn lớn hơn nhiều khi tính cả những người dùng dùng tên miền riêng.

Ông so sánh tình trạng này với cuộc khủng hoảng rò rỉ dữ liệu từ Amazon S3 trước đây. Nhiều công ty như Verizon hay WWE đã vô tình làm lộ thông tin do cấu hình sai hệ thống lưu trữ.

Dù lỗi xuất phát từ người dùng, giới chuyên gia vẫn đổ lỗi cho Amazon vì các cài đặt bảo mật gây nhầm lẫn khiến khách hàng dễ mắc sai lầm tương tự.

Zvi nói rằng các công cụ AI hiện nay đang tạo ra một làn sóng rò rỉ dữ liệu mới. Đây là kết quả của sự kết hợp giữa sai sót của người dùng và việc thiếu các biện pháp bảo vệ từ nền tảng.

Điểm mấu chốt là các công cụ này cho phép những người không có chuyên môn bảo mật tạo ra ứng dụng nằm ngoài quy trình kiểm duyệt thông thường của doanh nghiệp.

Zvi kết luận: "Bất kỳ ai cũng có thể tạo ra ứng dụng mà không qua bất kỳ chu kỳ phát triển hay kiểm tra bảo mật nào. Họ đưa chúng vào sản xuất ngay lập tức mà không cần hỏi ý kiến ai."

*Nguồn: Wired