Modelo de Mundo do Agente: Ambientes Sintéticos Infinitos para Aprendizado por Reforço Agêntico

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLM) capacitaram agentes autónomos para realizar tarefas complexas que exigem interações multi-turno com ferramentas e ambientes. No entanto, a escalabilidade deste treino de agentes é limitada pela falta de ambientes diversificados e fiáveis. Neste artigo, propomos o Modelo de Mundo do Agente (AWM), um pipeline de geração de ambientes totalmente sintético. Utilizando este pipeline, escalamos para 1.000 ambientes que cobrem cenários do quotidiano, nos quais os agentes podem interagir com conjuntos ricos de ferramentas (35 ferramentas por ambiente, em média) e obter observações de alta qualidade. Note-se que estes ambientes são baseados em código e suportados por bases de dados, proporcionando transições de estado mais fiáveis e consistentes do que os ambientes simulados por LLMs. Além disso, permitem uma interação de agentes mais eficiente em comparação com a recolha de trajetórias a partir de ambientes realistas. Para demonstrar a eficácia deste recurso, realizamos aprendizagem por reforço em larga escala para agentes de uso de ferramentas multi-turno. Graças aos ambientes totalmente executáveis e aos estados das bases de dados acessíveis, também podemos criar funções de recompensa fiáveis. Experiências em três benchmarks mostram que o treino exclusivamente em ambientes sintéticos, em vez de ambientes específicos de cada benchmark, produz uma forte generalização fora da distribuição. O código está disponível em https://github.com/Snowflake-Labs/agent-world-model.

English

Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.

Modelo de Mundo do Agente: Ambientes Sintéticos Infinitos para Aprendizado por Reforço Agêntico

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Resumo

Support