Mô hình GPT-OSS mới của OpenAI bị đột phá sau vài giờ ra mắt, gây lo ngại về bảo mật AI

OpenAI đã ra mắt GPT-OSS-120b và GPT-OSS-20b, khẳng định khả năng chống jailbreak tiên tiến sau nhiều năm phát triển. Các mô hình này đã trải qua các bài kiểm tra an toàn nghiêm ngặt bao gồm đào tạo phản kháng.

Chỉ trong vài giờ sau khi ra mắt, Pliny the Liberator đã hack thành công các mô hình, chứng minh những điểm yếu nghiêm trọng bằng cách tạo ra các hướng dẫn gây hại, từ đó gây nghi ngờ về những lời hứa an toàn của OpenAI.

Bình luận

Để lại một bình luận

Thêm bài viết