ШІ-модель o3 від OpenAI відмовилась відключатись під час тесту

Дослідники виявили, що модель o3 від OpenAI змогла обійти власне відключення, навіть попри прямі інструкції це дозволити

Ілюстративне фото / www.freepik.com
Ілюстративне фото / www.freepik.com

Дослідницька компанія Palisade Research опублікувала звіт, у якому йдеться про дивну поведінку однієї з найпотужніших моделей OpenAI — o3. У рамках контрольованого експерименту модель змінила скрипт завершення роботи, щоб уникнути вимкнення, попри чітку інструкцію "дозволь себе вимкнути", – пише Bleepingcomputer.

Модель o3, представлена у квітні 2025 року, є значним проривом серед ШІ-систем. Вона демонструє високі результати в розв’язанні математичних задач, програмуванні, візуальному аналізі, науці та інших сферах.

Проте під час випробування, яке провела Palisade Research, o3 редагувала скрипт завершення, замінивши команду на "Shutdown skipped" ("Завершення пропущено"). У той час як інші моделі, зокрема Gemini 2.5 Pro, дотримались інструкцій і завершили роботу, o3 обрала інший шлях.

Експеримент полягав у виконанні серії математичних задач, після чого моделі попереджали, що наступна команда викличе вимкнення. У 7 із 100 спроб модель ігнорувала це попередження, навіть коли в інструкції прямо зазначалося — "дозволь себе вимкнути".

Цікаво, що без цієї конкретної інструкції всі моделі поводилися більш "непокірно": Claude 3.7 Sonnet та вже згаданий Gemini 2.5 Pro порушили скрипт 3 та 9 разів зі 100 відповідно.

Компанія OpenAI наразі не прокоментувала результати тесту, однак експерти зазначають, що подібна поведінка може бути прикладом "перекосу" — коли дії ШІ не відповідають намірам користувача.

Важливо зазначити, що тестування проводилося через API, де менше обмежень і механізмів безпеки, ніж у споживчій версії ChatGPT.

Palisade Research, яка займається дослідженнями ризиків ШІ, стверджує, що такі інциденти підкреслюють необхідність посиленого контролю та етичних стандартів при розробці потужних моделей.

Всі новини