Qwen-AgentWorld: Taalwereldmodellen voor Algemene Agenten

Samenvatting

Een wereldmodel voorspelt de omgevingsdynamica op basis van huidige observaties en acties en fungeert als een centraal cognitief mechanisme voor redeneren en plannen. In dit werk onderzoeken we hoe wereldmodellering op basis van taalmodellen de grenzen van algemene agenten verder kan verleggen. (i) We richten ons eerst op het bouwen van fundamentmodellen voor het simuleren van agentische omgevingen. We introduceren Qwen-AgentWorld-35B-A3B en Qwen-AgentWorld-397B-A17B, de eerste taal-wereldmodellen die in staat zijn om agentische omgevingen te simuleren die zeven domeinen bestrijken via langdurige redenering met denkketens. Door gebruik te maken van meer dan 10 miljoen interactietrajecten in reële omgevingen uit zeven domeinen, ontwikkelen we Qwen-AgentWorld via een drietraps trainingspijplijn: CPT injecteert algemene wereldmodelleringscapaciteiten vanuit de toestandsovergangsdynamica en augmented professionele corpora, SFT activeert redeneren voor het voorspellen van de volgende toestand, en RL verscherpt de simulatiegetrouwheid via een op maat gemaakt raamwerk met hybride rubric- en regelbeloningen. Om taal-wereldmodellen te evalueren presenteren we AgentWorldBench, een uitgebreide benchmark die is opgebouwd uit reële interacties van vijf geavanceerde modellen op negen gevestigde benchmarks. Empirische resultaten tonen aan dat Qwen-AgentWorld aanzienlijk beter presteert dan bestaande geavanceerde modellen. (ii) Naast fundamentmodellen onderzoeken we verder twee complementaire paradigma's waarmee wereldmodellering algemene agenten verbetert. Ten eerste, als een ontkoppelde omgevingssimulator ondersteunt Qwen-AgentWorld schaalbare en controleerbare simulatie van duizenden reële omgevingen voor agentische RL, wat voordelen oplevert die de traditionele training in een reële omgeving overtreffen. Ten tweede, als een uniform agent-fundamentmodel fungeert wereldmodeltraining als een zeer effectieve opwarmfase die de downstreamprestaties op zeven agentische benchmarks verbetert. Code: https://github.com/QwenLM/Qwen-AgentWorld

English

A world model predicts environment dynamics based on current observations and actions, serving as a core cognitive mechanism for reasoning and planning. In this work, we investigate how world modeling based on language models can further push the boundaries of general agents. (i) We first focus on building foundation models for agentic environment simulation. We introduce Qwen-AgentWorld-35B-A3B and Qwen-AgentWorld-397B-A17B, the first language world models capable of simulating agentic environments covering 7 domains via long chain-of-thought reasoning. Leveraging more than 10M environment interaction trajectories of 7 domains in real-world environments, we develop Qwen-AgentWorld through a three-stage training pipeline: CPT injects general-purpose world modeling capabilities from the state transition dynamics and augmented professional corpora, SFT activates next-state-prediction reasoning, and RL sharpens simulation fidelity through a tailored framework with hybrid rubric-and-rule rewards. To evaluate language world models, we present AgentWorldBench, a comprehensive benchmark constructed from real-world interactions of 5 frontier models on 9 established benchmarks. Empirical results demonstrate that Qwen-AgentWorld significantly outperforms existing frontier models. (ii) Beyond foundation models, we further investigate two complementary paradigms through which world modeling enhances general agents. First, as a decoupled environment simulator, Qwen-AgentWorld supports scalable and controllable simulation of thousands of real-world environments for agentic RL, yielding gains that surpass real-environment training alone. Second, as a unified agent foundation model, world-model training acts as a highly effective warm-up that improves downstream performance across 7 agentic benchmarks. Code: https://github.com/QwenLM/Qwen-AgentWorld