ChatPaper.aiChatPaper

Große Aktionsmodelle: Von der Entstehung bis zur Umsetzung

Large Action Models: From Inception to Implementation

December 13, 2024
Autoren: Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI

Zusammenfassung

Mit dem Fortschreiten der KI steigt die Nachfrage nach Systemen, die über sprachbasierte Unterstützung hinausgehen und sich hin zu intelligenten Agenten bewegen, die in der Lage sind, realweltliche Aktionen auszuführen. Diese Entwicklung erfordert den Übergang von traditionellen Large Language Models (LLMs), die sich auf die Generierung von Textantworten spezialisiert haben, zu Large Action Models (LAMs), die für die Generierung und Ausführung von Aktionen in dynamischen Umgebungen konzipiert sind. Durch Agentensysteme ermöglicht, haben LAMs das Potenzial, die KI von passivem Sprachverständnis zu aktivem Aufgabenerfüllung zu transformieren und markieren einen bedeutenden Meilenstein auf dem Weg zur künstlichen allgemeinen Intelligenz. In diesem Paper präsentieren wir einen umfassenden Rahmen für die Entwicklung von LAMs und bieten einen systematischen Ansatz für ihre Erstellung, von der Konzeption bis zur Bereitstellung. Wir beginnen mit einem Überblick über LAMs, heben ihre einzigartigen Merkmale hervor und grenzen sie von LLMs ab. Anhand eines Agenten auf Basis des Windows-Betriebssystems als Fallstudie bieten wir eine detaillierte, schrittweise Anleitung zu den Schlüsselstadien der LAM-Entwicklung, einschließlich Datensammlung, Modelltraining, Umgebungseinbindung, Fundierung und Evaluation. Dieser verallgemeinerbare Arbeitsablauf kann als Blaupause für die Erstellung funktionaler LAMs in verschiedenen Anwendungsbereichen dienen. Abschließend identifizieren wir die aktuellen Einschränkungen von LAMs und diskutieren zukünftige Forschungsrichtungen und industrielle Bereitstellungsmöglichkeiten, wobei die Herausforderungen und Chancen betont werden, die bei der Realisierung des vollen Potenzials von LAMs in realen Anwendungen bevorstehen. Der Code für den in diesem Paper verwendeten Datensammlungsprozess ist öffentlich verfügbar unter: https://github.com/microsoft/UFO/tree/main/dataflow, und umfassende Dokumentation ist unter https://microsoft.github.io/UFO/dataflow/overview/ zu finden.
English
As AI continues to advance, there is a growing demand for systems that go beyond language-based assistance and move toward intelligent agents capable of performing real-world actions. This evolution requires the transition from traditional Large Language Models (LLMs), which excel at generating textual responses, to Large Action Models (LAMs), designed for action generation and execution within dynamic environments. Enabled by agent systems, LAMs hold the potential to transform AI from passive language understanding to active task completion, marking a significant milestone in the progression toward artificial general intelligence. In this paper, we present a comprehensive framework for developing LAMs, offering a systematic approach to their creation, from inception to deployment. We begin with an overview of LAMs, highlighting their unique characteristics and delineating their differences from LLMs. Using a Windows OS-based agent as a case study, we provide a detailed, step-by-step guide on the key stages of LAM development, including data collection, model training, environment integration, grounding, and evaluation. This generalizable workflow can serve as a blueprint for creating functional LAMs in various application domains. We conclude by identifying the current limitations of LAMs and discussing directions for future research and industrial deployment, emphasizing the challenges and opportunities that lie ahead in realizing the full potential of LAMs in real-world applications. The code for the data collection process utilized in this paper is publicly available at: https://github.com/microsoft/UFO/tree/main/dataflow, and comprehensive documentation can be found at https://microsoft.github.io/UFO/dataflow/overview/.

Summary

AI-Generated Summary

PDF355December 16, 2024