에이전트 세계 모델: 강화 학습 에이전트를 위한 무한 합성 환경
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
February 10, 2026
저자: Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He
cs.AI
초록
대규모 언어 모델(LLM)의 최근 발전으로 자율 에이전트가 도구 및 환경과의 다중 회상 상호작용이 필요한 복잡한 작업을 수행할 수 있게 되었습니다. 그러나 다양한 환경의 부족으로 인해 이러한 에이전트 학습의 확장에는 한계가 있습니다. 본 논문에서는 완전 합성 환경 생성 파이프라인인 Agent World Model(AWM)을 제안합니다. 이 파이프라인을 사용하여 일상적인 시나리오를 아우르는 1,000개의 환경으로 확장하며, 에이전트가 풍부한 도구 세트(환경당 평균 35개 도구)와 상호작용하고 고품질의 관측값을 얻을 수 있습니다. 특히 이러한 환경은 코드 기반이며 데이터베이스로 지원되어, LLM으로 시뮬레이션된 환경보다 더 신뢰할 수 있고 일관된 상태 전이를 제공합니다. 또한 현실적인 환경에서 궤적을 수집하는 것에 비해 더 효율적인 에이전트 상호작용이 가능합니다. 이 자원의 효과를 입증하기 위해 다중 회상 도구 사용 에이전트에 대한 대규모 강화 학습을 수행합니다. 완전히 실행 가능한 환경과 접근 가능한 데이터베이스 상태 덕분에 신뢰할 수 있는 보상 함수를 설계할 수도 있습니다. 3개의 벤치마크에서의 실험 결과, 벤치마크 특화 환경이 아닌 합성 환경에서만 학습하더라도 강력한 분포 외 일반화 성능을 보여줍니다. 코드는 https://github.com/Snowflake-Labs/agent-world-model 에서 확인할 수 있습니다.
English
Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.