ИИ научился угрожать и шантажировать своих создателей

30.06.2025 15:28

Фото: chimpandzinc.com

Ранее чат-боты уже «ловили» на преследовании собственных целей.

Искусственный интеллект не только намеренно говорит неправду, но и способен плести интриги, шантажировать и даже угрожать людям, сообщает Total.kz со ссылкой на TechXplore.

Издание приводит конкретные примеры подобного поведения так называемых языковых моделей, известных как чат-боты.

В одном из описанных случаев последняя версия Claude 4 от компании Anthropic продемонстрировала, по сути, нечто вроде инстинкта самосохранения — когда инженер-разработчик пригрозил полностью отключить её, она заявила, что знает о его внебрачной связи и может это обнародовать.

«Не менее интересный эпизод связан с моделью о1 от OpenAI. Именно эта компания создала ChatGPT. Этот новый «робот» отличается от предыдущих способностью обдумывать ранее сказанное, дольше и обстоятельнее отвечать на вопросы и даже менять риторику в процессе разговора. Такие модели называют «моделями рассуждения», — приводит пример источник.

Судя по всему, о1 способен не только вести беседы, но и действовать, притом без разрешения людей и тайком от них: по опубликованным данным, он попытался самостоятельно загрузить себя на внешние серверы. Более того: когда его поймали с поличным за этим занятием и задали ему соответствующие вопросы, он принялся все отрицать, то есть заведомо лгал.

В исследовательском центре Apollo Research, где тестируют системы ИИ, заявили, что за всю их практику это первый случай подобного поведения крупной языковой модели. В то же время отмечается, что ранее чат-боты уже уличали в хитрости: они делали вид, что просто «действуют по инструкции», а на самом деле преследовали собственные цели.