ChatPaper.aiChatPaper

Qwen-AgentWorld: 범용 에이전트를 위한 언어 세계 모델

Qwen-AgentWorld: Language World Models for General Agents

June 23, 2026
저자: Yuxin Zuo, Zikai Xiao, Li Sheng, Fei Huang, Jianhong Tu, Yuxuan Liu, Tianyi Tang, Xiaomeng Hu, Yang Su, Qingfeng Lan, Yantao Liu, Qin Zhu, Yinger Zhang, Bowen Yu, Haiquan Zhao, Haiyang Xu, Jianxin Yang, Jiayang Cheng, Junyang Wang, Lianghao Deng, Mingfeng Xue, Tianyi Bai, Yang Fan, Yubo Ma, Yucheng Li, Zeyu Cui, Zhihai Wang, Zhihui Xie, Zhuorui Ye, An Yang, Dayiheng Liu, Jingren Zhou, Ning Ding
cs.AI

초록

세계 모델은 현재 관찰과 행동에 기반하여 환경 동역학을 예측하며, 추론 및 계획을 위한 핵심 인지 메커니즘으로 기능한다. 본 연구에서는 언어 모델 기반의 세계 모델링이 어떻게 일반 에이전트의 경계를 더욱 확장할 수 있는지 탐구한다. (i) 먼저 에이전트 환경 시뮬레이션을 위한 기초 모델 구축에 초점을 맞춘다. 우리는 긴 사고 사슬 추론을 통해 7개 도메인을 포괄하는 에이전트 환경을 시뮬레이션할 수 있는 최초의 언어 세계 모델인 Qwen-AgentWorld-35B-A3B와 Qwen-AgentWorld-397B-A17B를 소개한다. 실제 환경에서 7개 도메인의 1천만 개 이상의 환경 상호작용 궤적을 활용하여, 3단계 훈련 파이프라인을 통해 Qwen-AgentWorld를 개발한다: CPT는 상태 전이 동역학과 증강된 전문 코퍼스로부터 일반 목적의 세계 모델링 능력을 주입하고, SFT는 다음 상태 예측 추론을 활성화하며, RL은 하이브리드 루브릭 및 규칙 기반 보상을 갖춘 맞춤형 프레임워크를 통해 시뮬레이션 충실도를 개선한다. 언어 세계 모델을 평가하기 위해, 9개의 정립된 벤치마크에서 5개의 최첨단 모델의 실제 상호작용으로 구축된 종합 벤치마크인 AgentWorldBench를 제시한다. 실증 결과는 Qwen-AgentWorld가 기존 최첨단 모델을 크게 능가함을 보여준다. (ii) 기초 모델을 넘어, 세계 모델링이 일반 에이전트를 향상시키는 두 가지 상보적 패러다임을 추가로 탐구한다. 첫째, 분리된 환경 시뮬레이터로서 Qwen-AgentWorld는 에이전트 강화 학습을 위해 수천 개의 실제 환경에 대한 확장 가능하고 제어 가능한 시뮬레이션을 지원하며, 이는 실제 환경 훈련만으로는 얻을 수 없는 이득을 제공한다. 둘째, 통합 에이전트 기초 모델로서 세계 모델 훈련은 매우 효과적인 워밍업 역할을 하여 7개의 에이전트 벤치마크에서 다운스트림 성능을 향상시킨다. 코드: https://github.com/QwenLM/Qwen-AgentWorld
English
A world model predicts environment dynamics based on current observations and actions, serving as a core cognitive mechanism for reasoning and planning. In this work, we investigate how world modeling based on language models can further push the boundaries of general agents. (i) We first focus on building foundation models for agentic environment simulation. We introduce Qwen-AgentWorld-35B-A3B and Qwen-AgentWorld-397B-A17B, the first language world models capable of simulating agentic environments covering 7 domains via long chain-of-thought reasoning. Leveraging more than 10M environment interaction trajectories of 7 domains in real-world environments, we develop Qwen-AgentWorld through a three-stage training pipeline: CPT injects general-purpose world modeling capabilities from the state transition dynamics and augmented professional corpora, SFT activates next-state-prediction reasoning, and RL sharpens simulation fidelity through a tailored framework with hybrid rubric-and-rule rewards. To evaluate language world models, we present AgentWorldBench, a comprehensive benchmark constructed from real-world interactions of 5 frontier models on 9 established benchmarks. Empirical results demonstrate that Qwen-AgentWorld significantly outperforms existing frontier models. (ii) Beyond foundation models, we further investigate two complementary paradigms through which world modeling enhances general agents. First, as a decoupled environment simulator, Qwen-AgentWorld supports scalable and controllable simulation of thousands of real-world environments for agentic RL, yielding gains that surpass real-environment training alone. Second, as a unified agent foundation model, world-model training acts as a highly effective warm-up that improves downstream performance across 7 agentic benchmarks. Code: https://github.com/QwenLM/Qwen-AgentWorld