Qwen-VLA: Unificando a Modelagem Visão-Linguagem-Ação em Tarefas, Ambientes e Corporificações Robóticas

Resumo

A inteligência incorporada é frequentemente estudada por meio de modelos especializados para tarefas individuais, como manipulação ou navegação, resultando em capacidades fragmentadas e generalização limitada entre tarefas, ambientes e corporificações robóticas. Neste trabalho, investigamos se problemas heterogêneos de tomada de decisão incorporada podem ser unificados em um único modelo visão-linguagem-ação. Apresentamos o Qwen-VLA, um modelo fundamental incorporado unificado que estende a pilha de modelagem visão-linguagem do Qwen, desde percepção, compreensão e raciocínio até geração contínua de ações e trajetórias, por meio de um decodificador de ação baseado em DiT. O Qwen-VLA é treinado com uma receita de pré-treinamento conjunto em larga escala sobre diversas fontes de dados, incluindo trajetórias de manipulação robótica, demonstrações egocêntricas humanas, dados de simulação sintética, dados de navegação visão-linguagem, supervisão centrada em trajetórias e dados auxiliares de visão-linguagem. Para suportar múltiplas plataformas robóticas, introduzimos o condicionamento de prompt ciente da incorporação, no qual descrições textuais específicas do robô especificam a corporificação atual e a convenção de controle. Adicionalmente, transformamos manipulação, navegação e predição de trajetórias em uma estrutura unificada de predição de ações e trajetórias, permitindo ancoragem visual transferível, raciocínio espacial e geração contínua de ações entre morfologias robóticas, famílias de tarefas e ambientes. Experimentos em benchmarks centrados em manipulação, navegação e trajetórias mostram desempenho multitarefa consistente e generalização fora da distribuição sob variações no layout da cena, fundo, iluminação, configuração de objetos e corporificação robótica. O Qwen-VLA-Instruct alcança 97,9% no LIBERO, 73,7% no Simpler-WidowX, 86,1%/87,2% no RoboTwin-Easy/Hard, 69,0% OSR no R2R, 59,6% SR no RxR, 76,9% de sucesso OOD médio em experimentos ALOHA do mundo real e 26,6% de sucesso zero-shot na manipulação dinâmica DOMINO.

English

Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fragmented capabilities and limited generalization across tasks, environments, and robot embodiments. In this work, we study whether heterogeneous embodied decision-making problems can be unified within a single vision-language-action model. We present Qwen-VLA, a unified embodied foundation model that extends Qwen's vision-language modeling stack from perception, understanding, and reasoning to continuous action and trajectory generation through a DiT-based action decoder. Qwen-VLA is trained with a large-scale joint pretraining recipe over diverse data sources, including robotics manipulation trajectories, human egocentric demonstrations, synthetic simulation data, vision-and-language navigation data, trajectory-centric supervision, and auxiliary vision-language data. To support multiple robot platforms, we introduce embodiment-aware prompt conditioning, where robot-specific textual descriptions specify the current embodiment and control convention. We further cast manipulation, navigation, and trajectory prediction into a unified action-and-trajectory prediction framework, enabling transferable visual grounding, spatial reasoning, and continuous action generation across robot morphologies, task families, and environments. Experiments on manipulation, navigation, and trajectory-centric benchmarks show consistent multi-task performance and out-of-distribution generalization under variations in scene layout, background, lighting, object configuration, and robot embodiment. Qwen-VLA-Instruct achieves 97.9% on LIBERO, 73.7% on Simpler-WidowX, 86.1%/87.2% on RoboTwin-Easy/Hard, 69.0% OSR on R2R, 59.6% SR on RxR, 76.9% average OOD success in real-world ALOHA experiments, and 26.6% zero-shot success on DOMINO dynamic manipulation.