Modelos de Ação de Grande Escala: Da Concepção à Implementação
Large Action Models: From Inception to Implementation
December 13, 2024
Autores: Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI
Resumo
À medida que a IA continua avançando, há uma crescente demanda por sistemas que vão além da assistência baseada em linguagem e avançam em direção a agentes inteligentes capazes de realizar ações do mundo real. Essa evolução requer a transição dos tradicionais Modelos de Linguagem Grande (LLMs), que se destacam na geração de respostas textuais, para Modelos de Ação Grande (LAMs), projetados para geração e execução de ações em ambientes dinâmicos. Habilitados por sistemas de agentes, os LAMs têm o potencial de transformar a IA de uma compreensão passiva de linguagem para a conclusão ativa de tarefas, marcando um marco significativo na progressão em direção à inteligência artificial geral.
Neste artigo, apresentamos um framework abrangente para o desenvolvimento de LAMs, oferecendo uma abordagem sistemática para sua criação, desde a concepção até a implantação. Começamos com uma visão geral dos LAMs, destacando suas características únicas e delineando suas diferenças em relação aos LLMs. Utilizando um agente baseado no sistema operacional Windows como estudo de caso, fornecemos um guia detalhado, passo a passo, sobre as principais etapas do desenvolvimento de LAMs, incluindo coleta de dados, treinamento do modelo, integração do ambiente, fundamentação e avaliação. Este fluxo de trabalho generalizável pode servir como um modelo para a criação de LAMs funcionais em vários domínios de aplicação. Concluímos identificando as limitações atuais dos LAMs e discutindo direções para futuras pesquisas e implantação industrial, enfatizando os desafios e oportunidades que estão por vir na realização do pleno potencial dos LAMs em aplicações do mundo real.
O código para o processo de coleta de dados utilizado neste artigo está publicamente disponível em: https://github.com/microsoft/UFO/tree/main/dataflow, e a documentação abrangente pode ser encontrada em https://microsoft.github.io/UFO/dataflow/overview/.
English
As AI continues to advance, there is a growing demand for systems that go
beyond language-based assistance and move toward intelligent agents capable of
performing real-world actions. This evolution requires the transition from
traditional Large Language Models (LLMs), which excel at generating textual
responses, to Large Action Models (LAMs), designed for action generation and
execution within dynamic environments. Enabled by agent systems, LAMs hold the
potential to transform AI from passive language understanding to active task
completion, marking a significant milestone in the progression toward
artificial general intelligence.
In this paper, we present a comprehensive framework for developing LAMs,
offering a systematic approach to their creation, from inception to deployment.
We begin with an overview of LAMs, highlighting their unique characteristics
and delineating their differences from LLMs. Using a Windows OS-based agent as
a case study, we provide a detailed, step-by-step guide on the key stages of
LAM development, including data collection, model training, environment
integration, grounding, and evaluation. This generalizable workflow can serve
as a blueprint for creating functional LAMs in various application domains. We
conclude by identifying the current limitations of LAMs and discussing
directions for future research and industrial deployment, emphasizing the
challenges and opportunities that lie ahead in realizing the full potential of
LAMs in real-world applications.
The code for the data collection process utilized in this paper is publicly
available at: https://github.com/microsoft/UFO/tree/main/dataflow, and
comprehensive documentation can be found at
https://microsoft.github.io/UFO/dataflow/overview/.Summary
AI-Generated Summary