Qwen-RobotWorld Technisch Rapport: Het verenigen van belichaamde wereldmodellering door middel van taalgestuurde videogeneratie

Samenvatting

We introduceren Qwen-RobotWorld, een taal-gestuurd video wereldmodel voor belichaamde intelligentie. Met natuurlijke taal als een uniforme actie-interface voorspelt het fysiek gefundeerde toekomstige visuele trajecten op basis van huidige observaties, verspreid over robotmanipulatie, autonoom rijden, binnenhuisnavigatie en mens-robot-overdracht. Deze uniforme formulering biedt drie veelbelovende toepassingsrichtingen: synthetische datageneratie ter aanvulling van beleidstraining, schaalbare virtuele omgevingen voor beleidsevaluatie, en taal-gestuurde planningssignalen voor downstream robotbesturing. Dit wordt bereikt door een ontwerp uit drie delen: a) Double-Stream MMDiT met MLLM-actiecodering, waarbij een 60-laags double-stream diffusietransformator de ingevroren Qwen2.5-VL-semantiek koppelt aan video-VAE-latenten via laagsgewijze gezamenlijke aandacht; b) Belichaamde Wereldkennis (EWK), een corpus van 8,6M video-tekst (200M+ frames) met actie-taalkoppeling over 20+ belichamingen en 500+ actiecategorieën; en c) Algemeen+Expert Progressief Curriculum, een tweetraps trainingsstrategie die eerst algemene visuele voorkennis leert en vervolgens belichaamde specialisatie injecteert onder een gedeelde taalinterface. Uitgebreide resultaten tonen sterke concurrentiekracht: staat op de 1e plaats overall op EWMBench en DreamGen Bench, overtreft alle opensource-modellen op WorldModelBench en PBench. Aanvullende zero-shot-analyses op de RoboTwin-IF-benchmark ondersteunen verder robuuste generalisatie en multiview-consistentie.

English

We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.