Qwen-RobotWorld Technischer Bericht: Vereinheitlichung der verkörperten Weltmodellierung durch sprachgesteuerte Videogenerierung
Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation
June 15, 2026
Autoren: Jie Zhang, Xiaoyue Chen, Anzhe Chen, Chenxu Lv, Deqing Li, Gengze Zhou, Hang Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zhixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Xiong-Hui Chen, Chenfei Wu
cs.AI
Zusammenfassung
Wir stellen Qwen-RobotWorld vor, ein sprachgesteuertes Videoweltmodell für verkörperte Intelligenz. Mit natürlicher Sprache als einheitlicher Aktionsschnittstelle prognostiziert es physikalisch fundierte zukünftige visuelle Trajektorien aus aktuellen Beobachtungen in den Bereichen Robotermanipulation, autonomes Fahren, Indoor-Navigation und Mensch-zu-Roboter-Transfer. Diese einheitliche Formulierung eröffnet drei vielversprechende Anwendungsrichtungen: synthetische Datengenerierung zur Erweiterung des Policy-Trainings, skalierbare virtuelle Umgebungen zur Policy-Evaluierung sowie sprachgesteuerte Planungssignale für die nachgelagerte Robotersteuerung. Dies wird durch ein dreiteiliges Design erreicht: a) Double-Stream MMDiT mit MLLM-Aktionskodierung, wobei ein 60-lagiger Double-Stream-Diffusionstransformer die eingefrorene Qwen2.5-VL-Semantik durch schichtweise gemeinsame Aufmerksamkeit mit Video-VAE-Latents koppelt; b) Embodied World Knowledge (EWK), ein 8,6 Mio. Video-Text-Korpus (über 200 Mio. Frames) mit Aktions-Sprach-Zuordnung über mehr als 20 Verkörperungen und über 500 Aktionskategorien; und c) General+Expert Progressives Curriculum, eine zweistufige Trainingsstrategie, die zunächst allgemeine visuelle A-priori-Kenntnisse erlernt und dann unter einer gemeinsamen Sprachschnittstelle verkörperte Spezialisierung einbringt. Umfangreiche Ergebnisse zeigen eine hohe Wettbewerbsfähigkeit: Insgesamt Platz 1 auf EWMBench und DreamGen Bench, Überlegenheit gegenüber allen Open-Source-Modellen auf WorldModelBench und PBench. Weitere Zero-Shot-Analysen auf dem RoboTwin-IF-Benchmark bestätigen robuste Generalisierung und Multi-View-Konsistenz.
English
We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.