Informe Técnico de Qwen-RobotWorld: Unificación del modelado del mundo encarnado mediante la generación de video condicionada por lenguaje
Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation
June 15, 2026
Autores: Jie Zhang, Xiaoyue Chen, Anzhe Chen, Chenxu Lv, Deqing Li, Gengze Zhou, Hang Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zhixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Xiong-Hui Chen, Chenfei Wu
cs.AI
Resumen
Presentamos Qwen-RobotWorld, un modelo de mundo visual condicionado por lenguaje para inteligencia corpórea. Utilizando el lenguaje natural como interfaz de acción unificada, predice trayectorias visuales futuras físicamente fundamentadas a partir de observaciones actuales en manipulación robótica, conducción autónoma, navegación en interiores y transferencia humano-robot. Esta formulación unificada ofrece tres direcciones de aplicación prometedoras: generación de datos sintéticos para el aumento del entrenamiento de políticas, entornos virtuales escalables para la evaluación de políticas y señales de planificación guiadas por lenguaje para el control robótico descendente. Esto se logra mediante un diseño en tres partes: a) MMDiT de Doble Flujo con Codificación de Acciones mediante MLLM, donde un transformador de difusión de doble flujo de 60 capas acopla la semántica congelada de Qwen2.5-VL con los latentes de video-VAE a través de atención conjunta por capas; b) Conocimiento del Mundo Corpóreo (EWK), un corpus de video-texto de 8.6M (más de 200M fotogramas) con mapeo acción-lenguaje que abarca más de 20 corporeizaciones y más de 500 categorías de acción; y c) Currículum Progresivo General+Experto, una estrategia de entrenamiento en dos etapas que primero aprende priors visuales generales y luego inyecta especialización corpórea bajo una interfaz de lenguaje compartida. Los resultados extensos muestran una fuerte competitividad: ocupa el primer lugar en general en EWMBench y DreamGen Bench, supera a todos los modelos de código abierto en WorldModelBench y PBench. Análisis adicionales de cero disparos en el benchmark RoboTwin-IF respaldan una generalización robusta y consistencia multivista.
English
We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.