Informe Técnico de Qwen-RobotWorld: Unificación del modelado del mundo encarnado mediante la generación de video condicionada por lenguaje

Resumen

Presentamos Qwen-RobotWorld, un modelo de mundo visual condicionado por lenguaje para inteligencia corpórea. Utilizando el lenguaje natural como interfaz de acción unificada, predice trayectorias visuales futuras físicamente fundamentadas a partir de observaciones actuales en manipulación robótica, conducción autónoma, navegación en interiores y transferencia humano-robot. Esta formulación unificada ofrece tres direcciones de aplicación prometedoras: generación de datos sintéticos para el aumento del entrenamiento de políticas, entornos virtuales escalables para la evaluación de políticas y señales de planificación guiadas por lenguaje para el control robótico descendente. Esto se logra mediante un diseño en tres partes: a) MMDiT de Doble Flujo con Codificación de Acciones mediante MLLM, donde un transformador de difusión de doble flujo de 60 capas acopla la semántica congelada de Qwen2.5-VL con los latentes de video-VAE a través de atención conjunta por capas; b) Conocimiento del Mundo Corpóreo (EWK), un corpus de video-texto de 8.6M (más de 200M fotogramas) con mapeo acción-lenguaje que abarca más de 20 corporeizaciones y más de 500 categorías de acción; y c) Currículum Progresivo General+Experto, una estrategia de entrenamiento en dos etapas que primero aprende priors visuales generales y luego inyecta especialización corpórea bajo una interfaz de lenguaje compartida. Los resultados extensos muestran una fuerte competitividad: ocupa el primer lugar en general en EWMBench y DreamGen Bench, supera a todos los modelos de código abierto en WorldModelBench y PBench. Análisis adicionales de cero disparos en el benchmark RoboTwin-IF respaldan una generalización robusta y consistencia multivista.

English

We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.