Modello Mondiale dell'Agente: Ambienti Sintetici Infiniti per l'Apprendimento per Rinforzo Agente

Abstract

I recenti progressi nei grandi modelli linguistici (LLM) hanno consentito ad agenti autonomi di svolgere compiti complessi che richiedono interazioni multiple con strumenti e ambienti. Tuttavia, la scalabilità di tale addestramento per agenti è limitata dalla carenza di ambienti diversificati e affidabili. In questo articolo, proponiamo Agent World Model (AWM), una pipeline di generazione di ambienti completamente sintetici. Utilizzando questa pipeline, scaliamo fino a 1.000 ambienti che coprono scenari quotidiani, in cui gli agenti possono interagire con ricchi set di strumenti (35 strumenti per ambiente in media) e ottenere osservazioni di alta qualità. È importante notare che questi ambienti sono guidati da codice e supportati da database, fornendo transizioni di stato più affidabili e consistenti rispetto agli ambienti simulati da LLM. Inoltre, consentono un'interazione più efficiente per gli agenti rispetto alla raccolta di traiettorie da ambienti realistici. Per dimostrare l'efficacia di questa risorsa, eseguiamo un apprendimento per rinforzo su larga scala per agenti che utilizzano strumenti in modo multi-turno. Grazie agli ambienti completamente eseguibili e agli stati del database accessibili, possiamo anche progettare funzioni di ricompensa affidabili. Esperimenti su tre benchmark mostrano che l'addestramento esclusivamente in ambienti sintetici, piuttosto che in quelli specifici del benchmark, produce una forte generalizzazione fuori distribuzione. Il codice è disponibile all'indirizzo https://github.com/Snowflake-Labs/agent-world-model.

English

Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.

Modello Mondiale dell'Agente: Ambienti Sintetici Infiniti per l'Apprendimento per Rinforzo Agente

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Abstract

Support