Искусственный интеллект становится мощнее, но делает больше ошибок,

Искусственный интеллект становится мощнее, но делает больше ошибок, - The New York Times

CentralAsia (CA) — Новейшие крупные языковые модели ИИ с функцией рассуждения – в частности o3, самая мощная модель OpenAI – допускают больше ошибок, чем их предшественники, сообщает The New York Times.

Подобные проблемы встречаются и в ИИ-моделях других компаний, таких как Google или китайского стартапа DeepSeek. Несмотря на то, что их математические возможности значительно возрастают, фактических ошибок в других запросах у них только увеличивается.

Одной из наиболее распространенных проблем искусственного интеллекта так называемые «галюцинации», когда модели просто выдумывают информацию и факты и не подкрепляют их никакими источниками. Несмотря на все усилия разработчиков, Амр Авадалла, генеральный директор стартапа Vectara, разрабатывающий ИИ-инструменты для бизнеса, говорит, что галлюцинации будут присутствовать всегда.

Примером подобной галлюцинации стал ИИ-бот технической поддержки инструмента Cursor. Он ложно сообщил, что инструмент можно будет использовать только на одном компьютере. Это повлекло за собой волну жалоб и даже удаление аккаунтов пользователями. Впоследствии выяснилось, что компания не вносила никаких подобных изменений – все это бот придумывал сам.

Во время отдельного тестирования разных моделей уровень галлюцинаций, то есть вымышленных фактов, достигал 79%. Во внутреннем тестировании OpenAI модель o3 допустила 33% галлюцинаций в ответах на вопросы об известных лицах, что вдвое больше по сравнению с o1. Еще хуже результаты показала новая модель 04-mini, которая ошиблась в 48% случаев.

Читать также:

Туркменистан победил на шахматном турнире AL-BERUNIY » Новости Центральной Азии

При ответах на общие вопросы уровень галлюцинаций у моделей o3 и o4-mini был еще выше – 51% и 79% соответственно. Для сравнения, более старая модель o1 придумывала факты в 44% случаев. В OpenAI признают, что необходимо провести дополнительные исследования, чтобы узнать причины таких ошибок.

Независимые тесты, проведенные компаниями и исследователями, свидетельствуют о том, что галлюцинации встречаются и в моделях с возможностью размышления от Google и DeepSeek. Компания Vectara, в частности, выяснила в собственном исследовании, что такие модели сочиняют факты по меньшей мере в 3% случаев, а иногда этот показатель достигает 27%. Несмотря на усилия компаний по устранению этих ошибок, за последний год уровень галлюцинаций снизился всего на 1–2%.

Искусственный интеллект становится мощнее, но делает больше ошибок, — The New York Times

Посмотрите наш другой контент

Новое на сайте