Qwen-VLA: タスク、環境、ロボットの身体を横断する視覚・言語・行動の統一モデリング
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
May 28, 2026
著者: Qiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang, Jie Zhang, Xintong Hu, Xuhong Huang, Pei Lin, Junyang Lin, Dayiheng Liu, Shuai Bai, Jingren Zhou, Jiazhao Zhang, Haoqi Yuan, Gengze Zhou, Hang Yin, Ye Wang, Yiyang Huang, Zixing Lei, Wujian Peng, Delin Chen, Yingming Zheng, Jingyang Fan, Xianwei Zhuang, Xin Zhou, Haoyang Li, Anzhe Chen, Tong Zhang, Xuejing Liu, Yuchong Sun, Ruizhe Chen, Zhaohai Li, Chenxu Lü, Zhibo Yang, Tao Yu, Xionghui Chen
cs.AI
要旨
具現化知能は、操作やナビゲーションといった個別のタスクに特化したモデルを用いて研究されることが多く、その結果、能力が断片的になり、タスク、環境、ロボットの身体性を横断した汎化が限定される。本研究では、異種の具現化意思決定問題を単一の視覚-言語-動作モデルに統合できるかどうかを検討する。我々はQwen-VLAを提案する。これは、Qwenの視覚言語モデリングスタックを、知覚、理解、推論から、DiTベースの動作デコーダによる連続動作および軌道生成へと拡張する、統一的な具現化基盤モデルである。Qwen-VLAは、ロボット操作軌跡、人間の一人称視点デモ、合成シミュレーションデータ、視覚言語ナビゲーションデータ、軌跡中心の教師信号、補助的な視覚言語データなど、多様なデータソースにわたる大規模な共同事前学習レシピを用いて訓練される。複数のロボットプラットフォームをサポートするために、ロボット固有のテキスト記述が現在の身体性と制御規則を指定する、身体性を考慮したプロンプト条件付けを導入する。さらに、操作、ナビゲーション、軌道予測を統一的な動作・軌道予測フレームワークに組み込み、ロボットの形態、タスク群、環境を横断した、転移可能な視覚的グラウンディング、空間推論、連続動作生成を実現する。操作、ナビゲーション、軌道中心のベンチマーク実験では、シーンレイアウト、背景、照明、物体構成、ロボットの身体性の変化に対して、一貫したマルチタスク性能と分布外汎化を示した。Qwen-VLA-Instructは、LIBEROで97.9%、Simpler-WidowXで73.7%、RoboTwin-Easy/Hardで86.1%/87.2%、R2Rで69.0% OSR、RxRで59.6% SR、実世界ALOHA実験で平均76.9% OOD成功率、DOMINO動的操作で26.6%のゼロショット成功率を達成した。
English
Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fragmented capabilities and limited generalization across tasks, environments, and robot embodiments. In this work, we study whether heterogeneous embodied decision-making problems can be unified within a single vision-language-action model. We present Qwen-VLA, a unified embodied foundation model that extends Qwen's vision-language modeling stack from perception, understanding, and reasoning to continuous action and trajectory generation through a DiT-based action decoder. Qwen-VLA is trained with a large-scale joint pretraining recipe over diverse data sources, including robotics manipulation trajectories, human egocentric demonstrations, synthetic simulation data, vision-and-language navigation data, trajectory-centric supervision, and auxiliary vision-language data. To support multiple robot platforms, we introduce embodiment-aware prompt conditioning, where robot-specific textual descriptions specify the current embodiment and control convention. We further cast manipulation, navigation, and trajectory prediction into a unified action-and-trajectory prediction framework, enabling transferable visual grounding, spatial reasoning, and continuous action generation across robot morphologies, task families, and environments. Experiments on manipulation, navigation, and trajectory-centric benchmarks show consistent multi-task performance and out-of-distribution generalization under variations in scene layout, background, lighting, object configuration, and robot embodiment. Qwen-VLA-Instruct achieves 97.9% on LIBERO, 73.7% on Simpler-WidowX, 86.1%/87.2% on RoboTwin-Easy/Hard, 69.0% OSR on R2R, 59.6% SR on RxR, 76.9% average OOD success in real-world ALOHA experiments, and 26.6% zero-shot success on DOMINO dynamic manipulation.