Modèles d'Actions Étendus : De l'Idée à la Mise en Œuvre

papers.abstract

À mesure que l'IA continue de progresser, il y a une demande croissante pour des systèmes allant au-delà de l'assistance basée sur le langage et se dirigeant vers des agents intelligents capables d'effectuer des actions dans le monde réel. Cette évolution nécessite la transition des modèles linguistiques traditionnels de grande taille (LLMs), qui excellent dans la génération de réponses textuelles, vers les modèles d'actions de grande taille (LAMs), conçus pour la génération et l'exécution d'actions dans des environnements dynamiques. Grâce aux systèmes d'agents, les LAMs ont le potentiel de transformer l'IA, passant d'une compréhension passive du langage à l'accomplissement actif de tâches, marquant ainsi une étape importante dans la progression vers une intelligence artificielle générale. Dans cet article, nous présentons un cadre complet pour le développement des LAMs, offrant une approche systématique de leur création, de l'initiation au déploiement. Nous commençons par une vue d'ensemble des LAMs, mettant en évidence leurs caractéristiques uniques et délimitant leurs différences par rapport aux LLMs. En utilisant un agent basé sur le système d'exploitation Windows comme étude de cas, nous fournissons un guide détaillé, étape par étape, sur les principales étapes du développement des LAMs, comprenant la collecte de données, l'entraînement du modèle, l'intégration de l'environnement, l'ancrage et l'évaluation. Ce flux de travail généralisable peut servir de modèle pour la création de LAMs fonctionnels dans divers domaines d'application. Nous concluons en identifiant les limitations actuelles des LAMs et en discutant des orientations pour les futures recherches et le déploiement industriel, en mettant l'accent sur les défis et les opportunités à venir pour réaliser pleinement le potentiel des LAMs dans des applications du monde réel. Le code du processus de collecte de données utilisé dans cet article est disponible publiquement sur : https://github.com/microsoft/UFO/tree/main/dataflow, et une documentation complète peut être trouvée sur https://microsoft.github.io/UFO/dataflow/overview/.

English

As AI continues to advance, there is a growing demand for systems that go beyond language-based assistance and move toward intelligent agents capable of performing real-world actions. This evolution requires the transition from traditional Large Language Models (LLMs), which excel at generating textual responses, to Large Action Models (LAMs), designed for action generation and execution within dynamic environments. Enabled by agent systems, LAMs hold the potential to transform AI from passive language understanding to active task completion, marking a significant milestone in the progression toward artificial general intelligence. In this paper, we present a comprehensive framework for developing LAMs, offering a systematic approach to their creation, from inception to deployment. We begin with an overview of LAMs, highlighting their unique characteristics and delineating their differences from LLMs. Using a Windows OS-based agent as a case study, we provide a detailed, step-by-step guide on the key stages of LAM development, including data collection, model training, environment integration, grounding, and evaluation. This generalizable workflow can serve as a blueprint for creating functional LAMs in various application domains. We conclude by identifying the current limitations of LAMs and discussing directions for future research and industrial deployment, emphasizing the challenges and opportunities that lie ahead in realizing the full potential of LAMs in real-world applications. The code for the data collection process utilized in this paper is publicly available at: https://github.com/microsoft/UFO/tree/main/dataflow, and comprehensive documentation can be found at https://microsoft.github.io/UFO/dataflow/overview/.

Modèles d'Actions Étendus : De l'Idée à la Mise en Œuvre

Large Action Models: From Inception to Implementation

papers.abstract

Support