Große Aktionsmodelle: Von der Entstehung bis zur Umsetzung
Large Action Models: From Inception to Implementation
December 13, 2024
Autoren: Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI
Zusammenfassung
Mit dem Fortschreiten der KI steigt die Nachfrage nach Systemen, die über sprachbasierte Unterstützung hinausgehen und sich hin zu intelligenten Agenten bewegen, die in der Lage sind, realweltliche Aktionen auszuführen. Diese Entwicklung erfordert den Übergang von traditionellen Large Language Models (LLMs), die sich auf die Generierung von Textantworten spezialisiert haben, zu Large Action Models (LAMs), die für die Generierung und Ausführung von Aktionen in dynamischen Umgebungen konzipiert sind. Durch Agentensysteme ermöglicht, haben LAMs das Potenzial, die KI von passivem Sprachverständnis zu aktivem Aufgabenerfüllung zu transformieren und markieren einen bedeutenden Meilenstein auf dem Weg zur künstlichen allgemeinen Intelligenz.
In diesem Paper präsentieren wir einen umfassenden Rahmen für die Entwicklung von LAMs und bieten einen systematischen Ansatz für ihre Erstellung, von der Konzeption bis zur Bereitstellung. Wir beginnen mit einem Überblick über LAMs, heben ihre einzigartigen Merkmale hervor und grenzen sie von LLMs ab. Anhand eines Agenten auf Basis des Windows-Betriebssystems als Fallstudie bieten wir eine detaillierte, schrittweise Anleitung zu den Schlüsselstadien der LAM-Entwicklung, einschließlich Datensammlung, Modelltraining, Umgebungseinbindung, Fundierung und Evaluation. Dieser verallgemeinerbare Arbeitsablauf kann als Blaupause für die Erstellung funktionaler LAMs in verschiedenen Anwendungsbereichen dienen. Abschließend identifizieren wir die aktuellen Einschränkungen von LAMs und diskutieren zukünftige Forschungsrichtungen und industrielle Bereitstellungsmöglichkeiten, wobei die Herausforderungen und Chancen betont werden, die bei der Realisierung des vollen Potenzials von LAMs in realen Anwendungen bevorstehen.
Der Code für den in diesem Paper verwendeten Datensammlungsprozess ist öffentlich verfügbar unter: https://github.com/microsoft/UFO/tree/main/dataflow, und umfassende Dokumentation ist unter https://microsoft.github.io/UFO/dataflow/overview/ zu finden.
English
As AI continues to advance, there is a growing demand for systems that go
beyond language-based assistance and move toward intelligent agents capable of
performing real-world actions. This evolution requires the transition from
traditional Large Language Models (LLMs), which excel at generating textual
responses, to Large Action Models (LAMs), designed for action generation and
execution within dynamic environments. Enabled by agent systems, LAMs hold the
potential to transform AI from passive language understanding to active task
completion, marking a significant milestone in the progression toward
artificial general intelligence.
In this paper, we present a comprehensive framework for developing LAMs,
offering a systematic approach to their creation, from inception to deployment.
We begin with an overview of LAMs, highlighting their unique characteristics
and delineating their differences from LLMs. Using a Windows OS-based agent as
a case study, we provide a detailed, step-by-step guide on the key stages of
LAM development, including data collection, model training, environment
integration, grounding, and evaluation. This generalizable workflow can serve
as a blueprint for creating functional LAMs in various application domains. We
conclude by identifying the current limitations of LAMs and discussing
directions for future research and industrial deployment, emphasizing the
challenges and opportunities that lie ahead in realizing the full potential of
LAMs in real-world applications.
The code for the data collection process utilized in this paper is publicly
available at: https://github.com/microsoft/UFO/tree/main/dataflow, and
comprehensive documentation can be found at
https://microsoft.github.io/UFO/dataflow/overview/.Summary
AI-Generated Summary