ChatPaper.aiChatPaper

Qwen-RobotWorld 技術報告: 言語条件付きビデオ生成による具現化世界モデリングの統一

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

June 15, 2026
著者: Jie Zhang, Xiaoyue Chen, Anzhe Chen, Chenxu Lv, Deqing Li, Gengze Zhou, Hang Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zhixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Xiong-Hui Chen, Chenfei Wu
cs.AI

要旨

本稿では、具身知能向けの言語条件付きビデオ世界モデル「Qwen-RobotWorld」を紹介する。本モデルは、自然言語を統一的な行動インターフェースとし、ロボット操作、自動運転、屋内ナビゲーション、人間からロボットへの転移にわたり、現在の観測から物理的に根拠づけられた将来の視覚的軌跡を予測する。この統一的な定式化により、ポリシー学習拡張のための合成データ生成、ポリシー評価のためのスケーラブルな仮想環境、下流ロボット制御のための言語誘導型計画信号という3つの有望な応用方向が提供される。これは以下の3つの要素からなる設計によって実現される。a) ダブルストリームMMDiTとMLLM動作符号化:60層のダブルストリーム拡散トランスフォーマーが、凍結されたQwen2.5-VLのセマンティクスとビデオVAE潜在表現を層ごとのジョイントアテンションを通じて結合する。b) 具身世界知識(EWK):860万のビデオテキストコーパス(2億フレーム以上)で、20以上の身体性と500以上の行動カテゴリにわたる行動-言語マッピングを含む。c) 一般+専門家の段階的カリキュラム:まず一般的な視覚事前知識を学習し、その後共有言語インターフェースの下で具身特化を注入する2段階訓練戦略。広範な結果により強力な競争力を示し、EWMBenchおよびDreamGen Benchで総合1位、WorldModelBenchおよびPBenchで全オープンソースモデルを上回る。さらに、RoboTwin-IFベンチマークにおけるゼロショット分析により、ロバストな一般化と多視点一貫性が確認された。
English
We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.