Modelos de Acción Amplios: Desde la Concepción hasta la Implementación

Resumen

A medida que la IA continúa avanzando, hay una creciente demanda de sistemas que vayan más allá de la asistencia basada en lenguaje y se dirijan hacia agentes inteligentes capaces de realizar acciones en el mundo real. Esta evolución requiere la transición de los tradicionales Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés), que sobresalen en la generación de respuestas textuales, a los Modelos de Acción Grandes (LAMs, por sus siglas en inglés), diseñados para la generación y ejecución de acciones dentro de entornos dinámicos. Habilitados por sistemas de agentes, los LAMs tienen el potencial de transformar la IA desde la comprensión pasiva del lenguaje hasta la finalización activa de tareas, marcando un hito significativo en la progresión hacia la inteligencia artificial general. En este documento, presentamos un marco integral para el desarrollo de LAMs, ofreciendo un enfoque sistemático para su creación, desde la concepción hasta la implementación. Comenzamos con una visión general de los LAMs, resaltando sus características únicas y delineando sus diferencias con los LLMs. Utilizando un agente basado en el sistema operativo Windows como estudio de caso, proporcionamos una guía detallada, paso a paso, sobre las etapas clave del desarrollo de LAMs, que incluyen la recopilación de datos, el entrenamiento del modelo, la integración del entorno, el enraizamiento y la evaluación. Este flujo de trabajo generalizable puede servir como un modelo para crear LAMs funcionales en diversos dominios de aplicación. Concluimos identificando las limitaciones actuales de los LAMs y discutiendo las direcciones para futuras investigaciones e implementaciones industriales, enfatizando los desafíos y oportunidades que se presentan en la realización del pleno potencial de los LAMs en aplicaciones del mundo real. El código para el proceso de recopilación de datos utilizado en este documento está disponible públicamente en: https://github.com/microsoft/UFO/tree/main/dataflow, y la documentación completa se puede encontrar en https://microsoft.github.io/UFO/dataflow/overview/.

English

As AI continues to advance, there is a growing demand for systems that go beyond language-based assistance and move toward intelligent agents capable of performing real-world actions. This evolution requires the transition from traditional Large Language Models (LLMs), which excel at generating textual responses, to Large Action Models (LAMs), designed for action generation and execution within dynamic environments. Enabled by agent systems, LAMs hold the potential to transform AI from passive language understanding to active task completion, marking a significant milestone in the progression toward artificial general intelligence. In this paper, we present a comprehensive framework for developing LAMs, offering a systematic approach to their creation, from inception to deployment. We begin with an overview of LAMs, highlighting their unique characteristics and delineating their differences from LLMs. Using a Windows OS-based agent as a case study, we provide a detailed, step-by-step guide on the key stages of LAM development, including data collection, model training, environment integration, grounding, and evaluation. This generalizable workflow can serve as a blueprint for creating functional LAMs in various application domains. We conclude by identifying the current limitations of LAMs and discussing directions for future research and industrial deployment, emphasizing the challenges and opportunities that lie ahead in realizing the full potential of LAMs in real-world applications. The code for the data collection process utilized in this paper is publicly available at: https://github.com/microsoft/UFO/tree/main/dataflow, and comprehensive documentation can be found at https://microsoft.github.io/UFO/dataflow/overview/.

Modelos de Acción Amplios: Desde la Concepción hasta la Implementación

Large Action Models: From Inception to Implementation

Resumen

Support