ChatPaper.aiChatPaper

Qwen-VLA: Het Verenigen van Visie-Taal-Actie Modellering over Taken, Omgevingen en Robotlichamen

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

May 28, 2026
Auteurs: Qiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang, Jie Zhang, Xintong Hu, Xuhong Huang, Pei Lin, Junyang Lin, Dayiheng Liu, Shuai Bai, Jingren Zhou, Jiazhao Zhang, Haoqi Yuan, Gengze Zhou, Hang Yin, Ye Wang, Yiyang Huang, Zixing Lei, Wujian Peng, Delin Chen, Yingming Zheng, Jingyang Fan, Xianwei Zhuang, Xin Zhou, Haoyang Li, Anzhe Chen, Tong Zhang, Xuejing Liu, Yuchong Sun, Ruizhe Chen, Zhaohai Li, Chenxu Lü, Zhibo Yang, Tao Yu, Xionghui Chen
cs.AI

Samenvatting

Belichaamde intelligentie wordt vaak bestudeerd via gespecialiseerde modellen voor individuele taken zoals manipulatie of navigatie, wat leidt tot gefragmenteerde capaciteiten en beperkte generalisatie over taken, omgevingen en robotlichamen. In dit werk onderzoeken we of heterogene belichaamde besluitvormingsproblemen kunnen worden verenigd in één enkel visie-taal-actiemodel. We presenteren Qwen-VLA, een verenigd belichaamd funderingsmodel dat de visie-taalmodelleringstack van Qwen uitbreidt van perceptie, begrip en redeneren naar continue actie- en trajectgeneratie via een DiT-gebaseerde actiedecoder. Qwen-VLA wordt getraind met een grootschalige gezamenlijke voorafgaande trainingsstrategie over diverse gegevensbronnen, waaronder robotmanipulatietrajecten, menselijke egocentrische demonstraties, synthetische simulatiegegevens, visie-en-taalnavigatiegegevens, trajectgerichte supervisie en aanvullende visie-taalgegevens. Om meerdere robotplatformen te ondersteunen, introduceren we embodiment-bewuste promptconditionering, waarbij robotspecifieke tekstuele beschrijvingen het huidige belichaamde en controleconventie specificeren. Verder gieten we manipulatie, navigatie en trajectvoorspelling in een verenigd actie-en-trajectvoorspellingskader, wat overdraagbare visuele gronding, ruimtelijk redeneren en continue actiegeneratie mogelijk maakt over robotmorfologieën, taakfamilies en omgevingen. Experimenten op manipulatie-, navigatie- en trajectgerichte benchmarks laten consistente multitaskprestaties en out-of-distribution generalisatie zien onder variaties in scène-indeling, achtergrond, verlichting, objectconfiguratie en robotbelichaming. Qwen-VLA-Instruct behaalt 97,9% op LIBERO, 73,7% op Simpler-WidowX, 86,1%/87,2% op RoboTwin-Easy/Hard, 69,0% OSR op R2R, 59,6% SR op RxR, 76,9% gemiddeld OOD-succes in echte ALOHA-experimenten en 26,6% zero-shot succes op DOMINO dynamische manipulatie.
English
Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fragmented capabilities and limited generalization across tasks, environments, and robot embodiments. In this work, we study whether heterogeneous embodied decision-making problems can be unified within a single vision-language-action model. We present Qwen-VLA, a unified embodied foundation model that extends Qwen's vision-language modeling stack from perception, understanding, and reasoning to continuous action and trajectory generation through a DiT-based action decoder. Qwen-VLA is trained with a large-scale joint pretraining recipe over diverse data sources, including robotics manipulation trajectories, human egocentric demonstrations, synthetic simulation data, vision-and-language navigation data, trajectory-centric supervision, and auxiliary vision-language data. To support multiple robot platforms, we introduce embodiment-aware prompt conditioning, where robot-specific textual descriptions specify the current embodiment and control convention. We further cast manipulation, navigation, and trajectory prediction into a unified action-and-trajectory prediction framework, enabling transferable visual grounding, spatial reasoning, and continuous action generation across robot morphologies, task families, and environments. Experiments on manipulation, navigation, and trajectory-centric benchmarks show consistent multi-task performance and out-of-distribution generalization under variations in scene layout, background, lighting, object configuration, and robot embodiment. Qwen-VLA-Instruct achieves 97.9% on LIBERO, 73.7% on Simpler-WidowX, 86.1%/87.2% on RoboTwin-Easy/Hard, 69.0% OSR on R2R, 59.6% SR on RxR, 76.9% average OOD success in real-world ALOHA experiments, and 26.6% zero-shot success on DOMINO dynamic manipulation.