Modèles d'Actions Étendus : De l'Idée à la Mise en Œuvre
Large Action Models: From Inception to Implementation
December 13, 2024
Auteurs: Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI
Résumé
À mesure que l'IA continue de progresser, il y a une demande croissante pour des systèmes allant au-delà de l'assistance basée sur le langage et se dirigeant vers des agents intelligents capables d'effectuer des actions dans le monde réel. Cette évolution nécessite la transition des modèles linguistiques traditionnels de grande taille (LLMs), qui excellent dans la génération de réponses textuelles, vers les modèles d'actions de grande taille (LAMs), conçus pour la génération et l'exécution d'actions dans des environnements dynamiques. Grâce aux systèmes d'agents, les LAMs ont le potentiel de transformer l'IA, passant d'une compréhension passive du langage à l'accomplissement actif de tâches, marquant ainsi une étape importante dans la progression vers une intelligence artificielle générale.
Dans cet article, nous présentons un cadre complet pour le développement des LAMs, offrant une approche systématique de leur création, de l'initiation au déploiement. Nous commençons par une vue d'ensemble des LAMs, mettant en évidence leurs caractéristiques uniques et délimitant leurs différences par rapport aux LLMs. En utilisant un agent basé sur le système d'exploitation Windows comme étude de cas, nous fournissons un guide détaillé, étape par étape, sur les principales étapes du développement des LAMs, comprenant la collecte de données, l'entraînement du modèle, l'intégration de l'environnement, l'ancrage et l'évaluation. Ce flux de travail généralisable peut servir de modèle pour la création de LAMs fonctionnels dans divers domaines d'application. Nous concluons en identifiant les limitations actuelles des LAMs et en discutant des orientations pour les futures recherches et le déploiement industriel, en mettant l'accent sur les défis et les opportunités à venir pour réaliser pleinement le potentiel des LAMs dans des applications du monde réel.
Le code du processus de collecte de données utilisé dans cet article est disponible publiquement sur : https://github.com/microsoft/UFO/tree/main/dataflow, et une documentation complète peut être trouvée sur https://microsoft.github.io/UFO/dataflow/overview/.
English
As AI continues to advance, there is a growing demand for systems that go
beyond language-based assistance and move toward intelligent agents capable of
performing real-world actions. This evolution requires the transition from
traditional Large Language Models (LLMs), which excel at generating textual
responses, to Large Action Models (LAMs), designed for action generation and
execution within dynamic environments. Enabled by agent systems, LAMs hold the
potential to transform AI from passive language understanding to active task
completion, marking a significant milestone in the progression toward
artificial general intelligence.
In this paper, we present a comprehensive framework for developing LAMs,
offering a systematic approach to their creation, from inception to deployment.
We begin with an overview of LAMs, highlighting their unique characteristics
and delineating their differences from LLMs. Using a Windows OS-based agent as
a case study, we provide a detailed, step-by-step guide on the key stages of
LAM development, including data collection, model training, environment
integration, grounding, and evaluation. This generalizable workflow can serve
as a blueprint for creating functional LAMs in various application domains. We
conclude by identifying the current limitations of LAMs and discussing
directions for future research and industrial deployment, emphasizing the
challenges and opportunities that lie ahead in realizing the full potential of
LAMs in real-world applications.
The code for the data collection process utilized in this paper is publicly
available at: https://github.com/microsoft/UFO/tree/main/dataflow, and
comprehensive documentation can be found at
https://microsoft.github.io/UFO/dataflow/overview/.Summary
AI-Generated Summary