Модели больших действий: от зарождения к реализации
Large Action Models: From Inception to Implementation
December 13, 2024
Авторы: Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI
Аннотация
По мере развития искусственного интеллекта возрастает потребность в системах, способных выходить за рамки языковой помощи и двигаться в направлении интеллектуальных агентов, способных выполнять действия в реальном мире. Это развитие требует перехода от традиционных моделей больших языковых моделей (Large Language Models, LLM), которые отлично справляются с генерацией текстовых ответов, к моделям больших действий (Large Action Models, LAM), предназначенным для генерации и выполнения действий в динамических средах. Благодаря агентным системам LAM имеют потенциал преобразить искусственный интеллект с пассивного понимания языка к активному выполнению задач, что является значительным этапом на пути к искусственному общему интеллекту.
В данной статье мы представляем комплексную методику разработки LAM, предлагая систематический подход к их созданию, начиная с зарождения и заканчивая внедрением. Мы начинаем с обзора LAM, выделяя их уникальные характеристики и разграничивая их от LLM. Используя агента на основе операционной системы Windows в качестве кейс-стади, мы предоставляем подробное пошаговое руководство по ключевым этапам разработки LAM, включая сбор данных, обучение модели, интеграцию с окружением, обоснование и оценку. Этот обобщенный рабочий процесс может служить основой для создания функциональных LAM в различных областях применения. Мы завершаем статью, выявляя текущие ограничения LAM и обсуждая направления для будущих исследований и промышленного внедрения, акцентируя внимание на вызовах и возможностях, которые лежат впереди для реализации полного потенциала LAM в реальных приложениях.
Код для процесса сбора данных, использованный в данной статье, доступен публично по адресу: https://github.com/microsoft/UFO/tree/main/dataflow, и полная документация доступна по ссылке https://microsoft.github.io/UFO/dataflow/overview/.
English
As AI continues to advance, there is a growing demand for systems that go
beyond language-based assistance and move toward intelligent agents capable of
performing real-world actions. This evolution requires the transition from
traditional Large Language Models (LLMs), which excel at generating textual
responses, to Large Action Models (LAMs), designed for action generation and
execution within dynamic environments. Enabled by agent systems, LAMs hold the
potential to transform AI from passive language understanding to active task
completion, marking a significant milestone in the progression toward
artificial general intelligence.
In this paper, we present a comprehensive framework for developing LAMs,
offering a systematic approach to their creation, from inception to deployment.
We begin with an overview of LAMs, highlighting their unique characteristics
and delineating their differences from LLMs. Using a Windows OS-based agent as
a case study, we provide a detailed, step-by-step guide on the key stages of
LAM development, including data collection, model training, environment
integration, grounding, and evaluation. This generalizable workflow can serve
as a blueprint for creating functional LAMs in various application domains. We
conclude by identifying the current limitations of LAMs and discussing
directions for future research and industrial deployment, emphasizing the
challenges and opportunities that lie ahead in realizing the full potential of
LAMs in real-world applications.
The code for the data collection process utilized in this paper is publicly
available at: https://github.com/microsoft/UFO/tree/main/dataflow, and
comprehensive documentation can be found at
https://microsoft.github.io/UFO/dataflow/overview/.