Qwen-RobotWorld Technisch Rapport: Het verenigen van belichaamde wereldmodellering door middel van taalgestuurde videogeneratie
Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation
June 15, 2026
Auteurs: Jie Zhang, Xiaoyue Chen, Anzhe Chen, Chenxu Lv, Deqing Li, Gengze Zhou, Hang Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zhixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Xiong-Hui Chen, Chenfei Wu
cs.AI
Samenvatting
We introduceren Qwen-RobotWorld, een taal-gestuurd video wereldmodel voor belichaamde intelligentie. Met natuurlijke taal als een uniforme actie-interface voorspelt het fysiek gefundeerde toekomstige visuele trajecten op basis van huidige observaties, verspreid over robotmanipulatie, autonoom rijden, binnenhuisnavigatie en mens-robot-overdracht. Deze uniforme formulering biedt drie veelbelovende toepassingsrichtingen: synthetische datageneratie ter aanvulling van beleidstraining, schaalbare virtuele omgevingen voor beleidsevaluatie, en taal-gestuurde planningssignalen voor downstream robotbesturing. Dit wordt bereikt door een ontwerp uit drie delen: a) Double-Stream MMDiT met MLLM-actiecodering, waarbij een 60-laags double-stream diffusietransformator de ingevroren Qwen2.5-VL-semantiek koppelt aan video-VAE-latenten via laagsgewijze gezamenlijke aandacht; b) Belichaamde Wereldkennis (EWK), een corpus van 8,6M video-tekst (200M+ frames) met actie-taalkoppeling over 20+ belichamingen en 500+ actiecategorieën; en c) Algemeen+Expert Progressief Curriculum, een tweetraps trainingsstrategie die eerst algemene visuele voorkennis leert en vervolgens belichaamde specialisatie injecteert onder een gedeelde taalinterface. Uitgebreide resultaten tonen sterke concurrentiekracht: staat op de 1e plaats overall op EWMBench en DreamGen Bench, overtreft alle opensource-modellen op WorldModelBench en PBench. Aanvullende zero-shot-analyses op de RoboTwin-IF-benchmark ondersteunen verder robuuste generalisatie en multiview-consistentie.
English
We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.