Rapport technique de Qwen-RobotWorld : Unifier la modélisation du monde incarné par la génération de vidéo conditionnée par le langage

Résumé

Nous présentons Qwen-RobotWorld, un modèle vidéo du monde conditionné par le langage pour l’intelligence incarnée. Utilisant le langage naturel comme interface d’action unifiée, il prédit des trajectoires visuelles futures physiquement fondées à partir d’observations actuelles, couvrant la manipulation robotique, la conduite autonome, la navigation en intérieur et le transfert humain-robot. Cette formulation unifiée offre trois directions d’application prometteuses : la génération de données synthétiques pour enrichir l’apprentissage des politiques, des environnements virtuels évolutifs pour l’évaluation des politiques, et des signaux de planification guidés par le langage pour le contrôle aval des robots. Ce résultat est obtenu grâce à une architecture en trois parties : a) un MMDiT à double flux avec encodage d’action MLLM, où un transformateur de diffusion à double flux de 60 couches couple la sémantique gelée de Qwen2.5-VL avec les latents vidéo-VAE via une attention conjointe par couche ; b) la Connaissance Mondiale Incarnée (Embodied World Knowledge, EWK), un corpus vidéo-texte de 8,6 millions d’entrées (plus de 200 millions d’images) avec une correspondance action-langage couvrant plus de 20 incarnations et plus de 500 catégories d’actions ; et c) un Curriculum Progressif Général+Expert, une stratégie d’entraînement en deux étapes qui apprend d’abord les a priori visuels généraux puis injecte une spécialisation incarnée sous une interface langagière partagée. Les résultats étendus montrent une forte compétitivité : classé 1er au classement général sur EWMBench et DreamGen Bench, surpassant tous les modèles open-source sur WorldModelBench et PBench. Des analyses zero-shot supplémentaires sur le benchmark RoboTwin-IF confirment une robustesse généralisée et une cohérence multi-vue.

English

We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.