Qwen-VLA : Unifier la modélisation vision-langage-action à travers les tâches, les environnements et les incarnations robotiques

Résumé

L'intelligence incarnée est souvent étudiée à travers des modèles spécialisés pour des tâches individuelles telles que la manipulation ou la navigation, ce qui conduit à des capacités fragmentées et à une généralisation limitée entre les tâches, les environnements et les incarnations robotiques. Dans ce travail, nous étudions la possibilité d'unifier des problèmes hétérogènes de prise de décision incarnée au sein d'un unique modèle vision-langage-action. Nous présentons Qwen-VLA, un modèle fondamental incarné unifié qui étend la pile de modélisation vision-langage de Qwen, allant de la perception, la compréhension et le raisonnement, à la génération continue d'actions et de trajectoires via un décodeur d'actions basé sur DiT. Qwen-VLA est entraîné selon une recette de pré-entraînement conjointe à grande échelle sur diverses sources de données, incluant des trajectoires de manipulation robotique, des démonstrations égocentriques humaines, des données de simulation synthétiques, des données de navigation vision-langage, une supervision centrée sur les trajectoires, et des données auxiliaires vision-langage. Pour prendre en charge plusieurs plateformes robotiques, nous introduisons un conditionnement des prompts tenant compte de l'incarnation, où des descriptions textuelles spécifiques au robot précisent l'incarnation courante et la convention de contrôle. Nous reformulons en outre la manipulation, la navigation et la prédiction de trajectoire dans un cadre unifié de prédiction d'actions et de trajectoires, permettant un ancrage visuel transférable, un raisonnement spatial et une génération continue d'actions à travers différentes morphologies robotiques, familles de tâches et environnements. Les expériences sur des benchmarks centrés sur la manipulation, la navigation et les trajectoires montrent des performances multitâches cohérentes et une généralisation hors distribution face à des variations de disposition de scène, d'arrière-plan, d'éclairage, de configuration des objets et d'incarnation robotique. Qwen-VLA-Instruct atteint 97,9% sur LIBERO, 73,7% sur Simpler-WidowX, 86,1%/87,2% sur RoboTwin-Easy/Hard, 69,0% OSR sur R2R, 59,6% SR sur RxR, 76,9% de succès moyen OOD dans des expériences ALOHA réelles, et 26,6% de succès zero-shot sur la manipulation dynamique DOMINO.

English

Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fragmented capabilities and limited generalization across tasks, environments, and robot embodiments. In this work, we study whether heterogeneous embodied decision-making problems can be unified within a single vision-language-action model. We present Qwen-VLA, a unified embodied foundation model that extends Qwen's vision-language modeling stack from perception, understanding, and reasoning to continuous action and trajectory generation through a DiT-based action decoder. Qwen-VLA is trained with a large-scale joint pretraining recipe over diverse data sources, including robotics manipulation trajectories, human egocentric demonstrations, synthetic simulation data, vision-and-language navigation data, trajectory-centric supervision, and auxiliary vision-language data. To support multiple robot platforms, we introduce embodiment-aware prompt conditioning, where robot-specific textual descriptions specify the current embodiment and control convention. We further cast manipulation, navigation, and trajectory prediction into a unified action-and-trajectory prediction framework, enabling transferable visual grounding, spatial reasoning, and continuous action generation across robot morphologies, task families, and environments. Experiments on manipulation, navigation, and trajectory-centric benchmarks show consistent multi-task performance and out-of-distribution generalization under variations in scene layout, background, lighting, object configuration, and robot embodiment. Qwen-VLA-Instruct achieves 97.9% on LIBERO, 73.7% on Simpler-WidowX, 86.1%/87.2% on RoboTwin-Easy/Hard, 69.0% OSR on R2R, 59.6% SR on RxR, 76.9% average OOD success in real-world ALOHA experiments, and 26.6% zero-shot success on DOMINO dynamic manipulation.