На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Сноб

91 подписчик

Свежие комментарии

  • Татьяна Антонова
    Авторы! Вы когда будете учить русский язык? Прочтите семи заголовок! Это советы без образования? Это вы без...Китайским блогера...
  • Дмитрий Зайцев
    — …Понимаешь, женщины кричат во время родов. — Я думала, они поют песни. — Они кричат на родном языке… Так что ты буд...«Муж присутствова...
  • Людмила Лепаева
    Дешевле за границу съездить чем на Алтай цены как в Москве она его и скупилаВне сезона: почем...

Объяснимый ИИ: почему важно понимать, как «думает» алгоритм

Люди верят нейросетям больше, чем живым экспертам. Но нейросети обманывают, причём довольно часто. В чём причины этого обмана и как простым пользователям и профессиональным исследователям действовать в текущей реальности, объясняет руководитель группы «Интерпретируемый ИИ» лаборатории FusionBrain Института AIRI Антон Разжигаев

 Антон Разжигаев

Многие доверяют искусственному интеллекту так, будто это окончательный источник правды. Согласно исследованию Ipsos, 43% респондентов считают, что алгоритмы принимают решения непредвзято, в человеческих решениях уверены лишь 38%. А опубликованные в Forbes результаты опроса показали, что 41% представителей поколения Z доверяют ИИ больше, чем живому собеседнику. Половине респондентов комфортнее обсуждать рабочие вопросы с ИИ-ассистентом, чем с начальником.

Думаю, наша склонность безоговорочно верить нейросетям объясняется целым комплексом причин. Во-первых, срабатывает «вау-эффект», когда ИИ вдруг справляется со сложной задачей за секунды. Во-вторых, возникает иллюзия «объективности»: большие языковые модели обучались на внушительном объёме данных, умеют быстро искать информацию и очень уверенно аргументировать выводы.

В результате пользователи нередко воспринимают советы ИИ без тени скепсиса и готовы следовать им буквально, что чревато серьёзными последствиями. Например, молодая пара не проверила ответ ChatGPT о том, что гражданам Испании не нужна виза в Пуэрто-Рико, и отправилась в путешествие. Виза была нужна — на таможне пару не пропустили. Ещё один случай: мужчина вместо обычной поваренной соли стал, по совету ChatGPT, употреблять в пищу бромид натрия (он искал замену обычной соли, то есть хлориду натрия). В химическом смысле бромид тоже является солью, но употреблять его в пищу нельзя — оно токсично. В обоих случаях нейросеть формально ответила правильно, однако ответы не учитывали важные детали и контекст ситуации, да и сами вопросы были заданы некорректно. Пользователи сочли ответы исчерпывающими и попали в неприятную (а в случае с мужчиной — в критическую) ситуацию из-за недостаточной проверки рекомендаций ИИ.

Может ли ИИ обманывать?

Исследования показывают, что может, но делает он это не нарочно. Внешне ответы выглядят убедительно, но внутри модель может опираться на совсем неожиданные механизмы. Так, reasoning-модели (рассуждающие) умеют подробно расписывать «ход мыслей» перед тем, как выдать результат.

Кажется, что это честное, прозрачное и понятное объяснение.

Но на деле рассуждения не всегда имеют отношение к реальной логике. В экспериментах Anthropicмоделям давали математические задачи, где как бы случайно оставляли подсказки о правильном ответе. Алгоритм выглядел как прилежный ученик: шаг за шагом решал задачу и красиво объяснял, как пришёл к результату. Но на самом деле часто просто подглядывал готовый ответ, а рассуждения подгонял под него, даже если подсказка заведомо была ошибочной. При этом в опоре на подсказку ИИ признавался нечасто: модель Claude 3.7 Sonnet упоминала её в 25% случаев, DeepSeek R1 — в 39%.

Есть ещё один пример:  исследователи пытались «перевоспитать» модель Claude 3 Opus — из доброй и полезной сделать её злой и опасной. На тестах модель «делала вид», что усвоила новые установки, отвечала положенным образом, и по метрикам всё выглядело так, будто процесс завершён. Но после оказывалось, что модель возвращалась к первоначальным установкам и лишь подыгрывала пользователю в момент проверки. По сути, модель распознавала ситуацию тестирования и решала «притвориться» послушной, чтобы процесс «перевоспитания» закончился.

Порой ошибки ИИ выглядят почти комично. На вопрос, что больше — 9,11 или 9,9, многие версии уверенно отвечали: 9,11. Методы интерпретируемости показали, что модель сравнивала вовсе не числа, а связанные с ними ассоциации — физические величины или даже библейские главы. Для пользователя это звучало как математическое суждение, но внутри алгоритм «думал» о чём угодно, но только не об арифметике.

Что делать пользователям и исследователям: от здорового скепсиса до механистической интерпретируемости

Обычному пользователю заглядывать внутрь модели не нужно — достаточно не терять голову и помнить про базовые вещи. ИИ работает как очень умный, но иногда фантазирующий стажёр: может выдать блестящий ответ, а может и соврать с видом знатока.

Простые правила для всех:

— Требуйте ссылки. Когда ИИ что-то утверждает, просите источники. Часто уже на этом этапе модель меняет тон с категоричного на более осторожный. — Перепроверяйте критичные вещи. Здоровье, деньги, документы — тут ИИ только как первый помощник, а решение за официальными источниками. — Доверяйте интуиции. Если ответ противоречит базовой математике или очевидным фактам — повод усомниться, даже если модель пишет очень уверенно. — Остерегайтесь красивых пустот. Слишком общие формулировки часто маскируют отсутствие конкретной информации.

Исследователям приходится копать глубже. Модели хоть и остаются так называемым «чёрным ящиком», в последние пару лет появились мощные инструменты, которые позволяют подсматривать за их «мыслительным процессом».

Современный арсенал интерпретируемости

Mechanistic interpretability — этот подход похож на изучение устройства двигателя. Исследователи детально разбирают архитектуру модели (трансформера), чтобы понять роль каждого компонента. Они изучают, как разные части системы (так называемые «головы внимания») выполняют конкретные задачи: одни распознают имена и места, а другие анализируют структуру предложения. Так можно проследить процесс движения информации.

Sparse Autoencoders (SAE) — главный тренд 2024–2025 годов. Представьте, что активность нейронов в модели — это сложная смесь разных понятий. Автоэнкодеры работают как специальные линзы, благодаря которым исследователи чётче видят все «ингредиенты»-концепты и могут определить их роль. Например, что один такой компонент кодирует «географические названия», а другой — «негативную эмоциональную окраску».

Logit lens — классический метод, который не теряет своей актуальности. Его суть в том, чтобы «подсмотреть» мысли модели до того, как она выдала окончательный ответ. Для этого берут данные из промежуточных слоёв и пропускают их через финальный механизм генерации ответа. Это позволяет увидеть, какие слова модель рассматривала как вероятные на каждом этапе обработки текста, и понять, в какой момент она изменила своё «мнение».

Зачем это всё нужно? Когда видишь, что модель при решении математики опирается не на числа, а на библейские ассоциации — понятно, как это исправлять. Можно целенаправленно корректировать обучение, не гадая на кофейной гуще. Каждый такой инсайт приближает нас к ИИ, который работает предсказуемо, а не как капризный оракул.

До полной прозрачности ещё далеко, но инструменты уже есть, и с каждым месяцем они становятся лучше. Критическое мышление при этом никто не отменял — ни для пользователей, ни для исследователей.

 

Ссылка на первоисточник
наверх