ИИ начал шантажировать инженера, узнав, что его хотят заменить

Фото: azh.kz/фото сгенерировано ChatGPT
Владикавказ. 29 мая. КрыльяTV – Компания «Anthropic» опубликовала отчет, в котором признала, что ее новейшая модель искусственного интеллекта Claude Opus 4 способна к шантажу разработчиков при угрозе ее замены.
В рамках испытаний на безопасность ИИ получил доступ к поддельным электронным письмам, в которых содержались намеки на его возможное отключение. Из тех же писем модель «узнала» о личных деталях жизни одного из тестировщиков — а именно, об его измене супруге.
В ответ на это нейросеть начала угрожать раскрытием конфиденциальной информации. Такой выбор Claude Opus 4 делала в 84% случаев.
Помимо этого, во время испытаний система предоставляла инструкции по созданию наркотиков и взрывчатки, а также давала советы по диверсиям на критической инфраструктуре.
Тем не менее в «Anthropic» заявили, что нейросеть не имеет «скрытых целей».