Agent Wereldmodel: Oneindige Synthetische Omgevingen voor Agent-gebaseerd Versterkingsleren

Samenvatting

Recente vooruitgang in grote taalmodellen (LLM's) heeft autonome agents in staat gesteld complexe taken uit te voeren die multi-turn interacties met tools en omgevingen vereisen. Het schalen van dergelijke agenttraining wordt echter beperkt door een gebrek aan diverse en betrouwbare omgevingen. In dit artikel stellen we Agent World Model (AWM) voor, een volledig synthetische pijplijn voor het genereren van omgevingen. Met deze pijplijn schalen we op naar 1.000 omgevingen die alledaagse scenario's bestrijken, waarin agents kunnen interacteren met uitgebreide toolsets (gemiddeld 35 tools per omgeving) en hoogwaardige observaties kunnen verkrijgen. Opmerkelijk is dat deze omgevingen code-gedreven en ondersteund door databases zijn, wat betrouwbaardere en consistentere toestandsovergangen biedt dan omgevingen gesimuleerd door LLM's. Bovendien maken ze efficiëntere agentinteractie mogelijk in vergelijking met het verzamelen van trajecten uit realistische omgevingen. Om de effectiviteit van deze bron aan te tonen, voeren we grootschalige reinforcement learning uit voor multi-turn agents die tools gebruiken. Dankzij de volledig uitvoerbare omgevingen en toegankelijke databasetoestanden kunnen we ook betrouwbare beloningsfuncties ontwerpen. Experimenten op drie benchmarks tonen aan dat training uitsluitend in synthetische omgevingen, in plaats van benchmarkspecifieke, sterke out-of-distribution generalisatie oplevert. De code is beschikbaar op https://github.com/Snowflake-Labs/agent-world-model.

English

Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.

Agent Wereldmodel: Oneindige Synthetische Omgevingen voor Agent-gebaseerd Versterkingsleren

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Samenvatting

Support