Grote Actiemodellen: Van Conceptie tot Implementatie

Samenvatting

Naarmate AI blijft evolueren, groeit de vraag naar systemen die verder gaan dan op taal gebaseerde assistentie en zich richten op intelligente agenten die in staat zijn om acties in de echte wereld uit te voeren. Deze evolutie vereist de overgang van traditionele Grote Taalmodellen (GTM's), die uitblinken in het genereren van tekstuele antwoorden, naar Grote Actiemodellen (GAM's), ontworpen voor actiegeneratie en -uitvoering binnen dynamische omgevingen. Ondersteund door agentsystemen hebben GAM's het potentieel om AI te transformeren van passief taalbegrip naar actieve taakuitvoering, wat een belangrijke mijlpaal markeert in de vooruitgang naar kunstmatige algemene intelligentie. In dit artikel presenteren we een uitgebreid kader voor het ontwikkelen van GAM's, waarbij we een systematische aanpak bieden voor hun creatie, van conceptie tot implementatie. We beginnen met een overzicht van GAM's, waarbij we hun unieke kenmerken benadrukken en hun verschillen ten opzichte van GTM's uiteenzetten. Met behulp van een Windows OS-gebaseerde agent als casestudy, bieden we een gedetailleide, stapsgewijze handleiding over de belangrijkste fasen van GAM-ontwikkeling, inclusief gegevensverzameling, modeltraining, omgevingsintegratie, gronding en evaluatie. Deze generaliseerbare workflow kan dienen als blauwdruk voor het creëren van functionele GAM's in verschillende toepassingsdomeinen. We sluiten af door de huidige beperkingen van GAM's te identificeren en richtingen voor toekomstig onderzoek en industriële implementatie te bespreken, waarbij de uitdagingen en kansen worden benadrukt die voor ons liggen om het volledige potentieel van GAM's in real-world toepassingen te realiseren. De code voor het gegevensverzamelingsproces dat in dit artikel wordt gebruikt, is openbaar beschikbaar op: https://github.com/microsoft/UFO/tree/main/dataflow, en uitgebreide documentatie is te vinden op https://microsoft.github.io/UFO/dataflow/overview/.

English

As AI continues to advance, there is a growing demand for systems that go beyond language-based assistance and move toward intelligent agents capable of performing real-world actions. This evolution requires the transition from traditional Large Language Models (LLMs), which excel at generating textual responses, to Large Action Models (LAMs), designed for action generation and execution within dynamic environments. Enabled by agent systems, LAMs hold the potential to transform AI from passive language understanding to active task completion, marking a significant milestone in the progression toward artificial general intelligence. In this paper, we present a comprehensive framework for developing LAMs, offering a systematic approach to their creation, from inception to deployment. We begin with an overview of LAMs, highlighting their unique characteristics and delineating their differences from LLMs. Using a Windows OS-based agent as a case study, we provide a detailed, step-by-step guide on the key stages of LAM development, including data collection, model training, environment integration, grounding, and evaluation. This generalizable workflow can serve as a blueprint for creating functional LAMs in various application domains. We conclude by identifying the current limitations of LAMs and discussing directions for future research and industrial deployment, emphasizing the challenges and opportunities that lie ahead in realizing the full potential of LAMs in real-world applications. The code for the data collection process utilized in this paper is publicly available at: https://github.com/microsoft/UFO/tree/main/dataflow, and comprehensive documentation can be found at https://microsoft.github.io/UFO/dataflow/overview/.

Grote Actiemodellen: Van Conceptie tot Implementatie

Large Action Models: From Inception to Implementation

Samenvatting

Support