ИИ-агенты уже готовы менять корпоративный мир, но их внедрение сопровождается рядом проблем. Эксперт Дмитрий Груднев рассказывает о барьерах, возможностях агентов и о том, как технологии могут трансформировать бизнес.
Развитие ИИ, в частности генеративного, происходит очень быстро. В одной колонке невозможно охватить все модели и приложения, увидевшие свет в 2024 году, — за рамками остались малые языковые модели, успехи ИИ в создании музыки и видео, развитие ИИ-сред для разработчиков с автоматической генерацией кода и другие не менее значимые достижения. С точки зрения бизнес-консультанта важно в непрерывном потоке новостей выделить события в мире ИИ в 2024 году, которые могут стать основой долгосрочных трендов технологического развития, и понять, насколько бизнес готов к предстоящим изменениям.
ИИ научился рассуждать
В последние годы на примере ChatGPT мы могли наблюдать стремительный прогресс больших языковых моделей. Однако сейчас в экспертном сообществе всё больше говорят о проблеме, получившей название «стена данных», — ограниченность качественных данных для обучения. Эксперты исследовательского института Epoch AI подсчитали, что мировой запас общедоступных текстов, созданных человеком, составляет 300 трлн токенов (единица измерения, примерно равная 0,8 слова в английском языке), и в базовом сценарии этот запас будет исчерпан при обучении больших языковых моделей (LLM) уже к 2028 году.
Тем временем ИИ-разработчики продолжают выпускать новые версии своих решений. Например, для обучения языковой модели GPT-4 от OpenAI, выпущенной в 2023 году, по неподтверждённым данным было использовано около 13 трлн токенов текстовой информации, в то время как для обучения GPT-3, выпущенной в 2020 году, потребовалось 499 млрд токенов. В текущей парадигме развития для того, чтобы достичь значительного улучшения модели по сравнению с предыдущей версией, требуется постоянно увеличивать объём и качество обучающей выборки. Однако команды разработки сталкиваются с тем, что доступные текстовые данные в интернете практически исчерпаны, а новые материалы появляются недостаточно быстро или не обладают необходимым качеством.
Одним из способов решения данной проблемы является новый подход к улучшению моделей — развитие способностей к рассуждению. В 2024 году такую способность получили, например, новые модели o1 от OpenAI, QwQ от Alibaba Cloud и DeepSeek от одноимённой китайской ИИ-лаборатории. У данных моделей есть возможность «подумать», то есть разбить запрос на части, выстроить цепочки рассуждений и оценить несколько вариантов перед генерацией финального ответа пользователю. Это позволяет им лучше справляться с логическими и математическими задачами и уменьшает количество «галлюцинаций», то есть неточной или ложной информации. Более того, некоторые модели позволяют пользователю посмотреть на промежуточные рассуждения модели, чтобы понять, как она пришла к итоговому результату.
Сейчас наибольший эффект от этого могут заметить научные исследователи и программисты, разрабатывающие сложные алгоритмы. Такие модели требуют больше вычислительных ресурсов при использовании, работают медленнее и стоят дороже, однако в потенциале позволяют преодолеть «стену данных» и приближают нас к созданию полноценных ИИ-агентов (высокоуровнево ИИ-агента можно сравнить с отдельным сотрудником).
Мультимодальные модели
Крупнейшие разработчики ИИ объединяют возможности обработки различных типов данных внутри одной модели, будь то текст, звук или видео. Такие модели, как GPT-4o от OpenAI или Gemini от Google, способны воспринимать не только текстовые запросы, но и голосовые команды, анализировать изображения и видео в реальном времени.
Прямо сейчас эти модели могут использоваться для создания универсальных ИИ-ассистентов, которые «видят» и понимают окружающий мир. Например, они могут проанализировать содержимое мини-бара и предложить рецепты коктейлей на основе имеющихся ингредиентов. Это понятный пример повседневного использования ИИ, но по мере роста уровня зрелости этот функционал будет весьма востребован в бизнесе, например, в службе поддержки или даже первичном звене здравоохранения. ИИ сможет дать не просто общие текстовые инструкции, но и проанализировать фото или видео, чтобы помочь пользователю решить конкретную возникшую проблему или направить пациента к профильному специалисту.
2025 — год ИИ-агентов?
Уже сейчас в корпоративном мире происходит активное распространение ИИ-ассистентов, которые способны взять на себя выполнение ряда базовых задач офисных работников. Например, выпущенный в 2023 году ассистент Microsoft Copilot, интегрированный с офисным пакетом, может, среди прочего, выполнять протоколирование и резюмирование встреч, анализ и приоритизацию рабочей переписки, создание драфтов писем, документов и презентаций на основе внутренних материалов компании, написание формул в Excel по текстовым запросам.
Следующий этап, которому способствуют в том числе развитие мультимодальности и «мышления» генеративного ИИ, — развитие полноценных ИИ-агентов.
В 2023 году ожидалось, что главным трендом 2024 года станут ИИ-агенты — программные или физические системы, способные автономно выполнять разнообразные задачи в динамичной среде. Это предсказание не сбылось, но имеет все шансы начать реализовываться в 2025 году.
Если традиционный цифровой ИИ-ассистент представлял собой программный код, у которого есть цель, поставленная пользователем, «мышление» на базе большой языковой модели и «руки», обычно использующие машинные интерфейсы — API для доступа к сервисам, то последние успехи в развитии мультимодальных моделей позволили добавить к этой конфигурации «зрение».
Теперь программные ИИ-агенты могут взаимодействовать с интерфейсом, предназначенным для человека. Например, Google недавно показал прототип Project Mariner — ИИ-агента, способного брать под контроль браузер, перемещать курсор, заполнять формы, выполняя команды пользователя на естественном языке.
В перспективе развитие ИИ-агентов в корпоративном мире может привести к переосмыслению текущего подхода к роботизированной автоматизации процессов (RPA) и значительному повышению эффективности. Глава OpenAI Сэм Альтман недавно заявил, что ожидает в будущем появление компании с капитализацией 1 млрд долларов, основателю которой не придётся нанять ни одного человека, а все задачи будут выполнять ИИ-агенты. Использование мультиагентных систем, то есть команд из ИИ-агентов, каждый из которых выполняет свою роль и специализируется на решении определённых задач, откроет возможность коренной трансформации операционной модели бизнеса, а не просто повышения производительности труда.
Готов ли бизнес к внедрению ИИ-агентов?
На первый взгляд, корпоративный ИИ-агент — идеальный сотрудник. Он не уйдёт на больничный в самый неподходящий момент, не устроит конфликт с коллегами и будет работать круглосуточно без перерывов.
Однако реальность внедрения ИИ-агентов в бизнес-процессы будет гораздо сложнее. Компании столкнутся с целым комплексом вызовов — от технологических до организационных. Часть из них уже сейчас видна на примере внедрения ИИ-систем и ассистентов.
Например, в исследовании Рексофт Консалтинг по результатам интервью с отраслевыми экспертами мы выявили пять ключевых барьеров на пути разработки и внедрения цифровых решений на базе ИИ:
- Разрыв между ожиданиями бизнеса и реальными возможностями технологий.
- Низкое качество и доступность корпоративных данных.
- Проблемы с интеграцией ИИ-решений в существующую ИТ-инфраструктуру и их последующей поддержкой.
- Сложность поиска и удержания необходимых кадров.
- Особенности автономности и способности ИИ-агентов принимать решения в динамически меняющихся условиях, что создаёт дополнительные риски.
Ключевой проблемой является обеспечение предсказуемости и контролируемости действий ИИ-агентов. В отличие от традиционных автоматизированных систем генеративные ИИ-агенты могут принимать неожиданные решения или действовать способами, которые сложно предусмотреть заранее. Это создаёт серьёзные вызовы, особенно в регулируемых отраслях, таких как финансы или здравоохранение.
Другой существенный барьер — сложность интеграции ИИ-агентов в существующие бизнес-процессы и корпоративные системы. Агенты должны иметь доступ к различным информационным системам компании, уметь взаимодействовать с другими программными решениями и базами данных, что требует создания сложной системы разграничения прав доступа и механизмов контроля. При этом существующие протоколы информационной безопасности часто не учитывают специфику работы автономных ИИ-агентов.
Например, недавно ряд компаний приостановил внедрение корпоративного ИИ-ассистента от Microsoft по причине того, что он предоставлял сотрудникам доступ к конфиденциальной информации, такой как личные дела или письма директоров, из-за неправильной настройки доступов.
Отдельную сложность представляет обеспечение эффективного взаимодействия между ИИ-агентами и сотрудниками. Необходимо не только технически обеспечить такое взаимодействие, но и преодолеть психологические барьеры, связанные с недоверием к автономным системам и страхом потери контроля над рабочими процессами.
Важно определить, какие роли и функции останутся за людьми, а какие будут переданы ИИ-агентам. Текущий вектор развития технологий позволяет предполагать, что стратегические решения, требующие эмоционального интеллекта и креативного мышления, останутся прерогативой человека, в то время как рутинные задачи будут постепенно автоматизированы.
При этом на наших глазах начинает формироваться новая управленческая парадигма, где каждый сотрудник становится своего рода менеджером для ИИ. Это потребует умения чётко формулировать цели и задачи, критического мышления для оценки результатов работы, а также развития новых компетенций, таких как prompt engineering — способность формулировать задачи на языке, понятном машине, для получения наиболее качественного результата.
Необходимо разработать программы переобучения существующего персонала и новые методики оценки эффективности совместной работы людей и ИИ.
Наконец, существует проблема масштабирования мультиагентных систем. По мере увеличения количества взаимодействующих агентов экспоненциально возрастает сложность координации их действий, отслеживания результатов работы и обеспечения согласованности принимаемых решений.
Это требует, с одной стороны, создания специализированных систем оркестрации и мониторинга работы ИИ-агентов, которые пока находятся на ранней стадии развития, а с другой — пересмотра операционной модели и бизнес-процессов всей организации.
Таким образом, несмотря на высокую скорость развития технологий, использование ИИ-агентов для решения бизнес-задач потребует перестройки организации, процесс которой не будет простым и одномоментным.
Автор: Дмитрий Груднев, консультант практики «Технологическая трансформация» Рексофт Консалтинг
Свежие комментарии