Qwen-RobotWorld Technischer Bericht: Vereinheitlichung der verkörperten Weltmodellierung durch sprachgesteuerte Videogenerierung

Zusammenfassung

Wir stellen Qwen-RobotWorld vor, ein sprachgesteuertes Videoweltmodell für verkörperte Intelligenz. Mit natürlicher Sprache als einheitlicher Aktionsschnittstelle prognostiziert es physikalisch fundierte zukünftige visuelle Trajektorien aus aktuellen Beobachtungen in den Bereichen Robotermanipulation, autonomes Fahren, Indoor-Navigation und Mensch-zu-Roboter-Transfer. Diese einheitliche Formulierung eröffnet drei vielversprechende Anwendungsrichtungen: synthetische Datengenerierung zur Erweiterung des Policy-Trainings, skalierbare virtuelle Umgebungen zur Policy-Evaluierung sowie sprachgesteuerte Planungssignale für die nachgelagerte Robotersteuerung. Dies wird durch ein dreiteiliges Design erreicht: a) Double-Stream MMDiT mit MLLM-Aktionskodierung, wobei ein 60-lagiger Double-Stream-Diffusionstransformer die eingefrorene Qwen2.5-VL-Semantik durch schichtweise gemeinsame Aufmerksamkeit mit Video-VAE-Latents koppelt; b) Embodied World Knowledge (EWK), ein 8,6 Mio. Video-Text-Korpus (über 200 Mio. Frames) mit Aktions-Sprach-Zuordnung über mehr als 20 Verkörperungen und über 500 Aktionskategorien; und c) General+Expert Progressives Curriculum, eine zweistufige Trainingsstrategie, die zunächst allgemeine visuelle A-priori-Kenntnisse erlernt und dann unter einer gemeinsamen Sprachschnittstelle verkörperte Spezialisierung einbringt. Umfangreiche Ergebnisse zeigen eine hohe Wettbewerbsfähigkeit: Insgesamt Platz 1 auf EWMBench und DreamGen Bench, Überlegenheit gegenüber allen Open-Source-Modellen auf WorldModelBench und PBench. Weitere Zero-Shot-Analysen auf dem RoboTwin-IF-Benchmark bestätigen robuste Generalisierung und Multi-View-Konsistenz.

English

We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.