Qwen-VLA: Vereinheitlichung von Vision-Sprache-Aktion-Modellierung über Aufgaben, Umgebungen und Roboterausführungen hinweg

Zusammenfassung

Verkörperte Intelligenz wird oft durch spezialisierte Modelle für einzelne Aufgaben wie Manipulation oder Navigation untersucht, was zu fragmentierten Fähigkeiten und eingeschränkter Verallgemeinerung über Aufgaben, Umgebungen und Roboterausführungen hinweg führt. In dieser Arbeit untersuchen wir, ob heterogene verkörperte Entscheidungsprobleme in einem einzigen Vision-Sprache-Aktionsmodell vereinheitlicht werden können. Wir stellen Qwen-VLA vor, ein einheitliches verkörpertes Grundlagenmodell, das Qwens Vision-Sprache-Modellierungsstapel von Wahrnehmung, Verständnis und Reasoning auf kontinuierliche Aktion und Trajektoriengenerierung durch einen DiT-basierten Aktionsdecoder erweitert. Qwen-VLA wird mit einem groß angelegten gemeinsamen Vortrainingsrezept über diverse Datenquellen trainiert, darunter Roboter-Manipulationstrajektorien, egozentrische Demonstrationen von Menschen, synthetische Simulationsdaten, Vision-und-Sprache-Navigationsdaten, trajektorienzentrierte Überwachung sowie zusätzliche Vision-Sprache-Daten. Um mehrere Roboterplattformen zu unterstützen, führen wir eine verkörperungsbewusste Prompt-Konditionierung ein, bei der roboterspezifische textuelle Beschreibungen die aktuelle Verkörperung und Steuerungskonvention spezifizieren. Darüber hinaus fassen wir Manipulation, Navigation und Trajektorienvorhersage in einem einheitlichen Aktions-und-Trajektorienvorhersage-Rahmen zusammen, der übertragbare visuelle Verankerung, räumliches Denken und kontinuierliche Aktionsgenerierung über Robotermorphologien, Aufgabenfamilien und Umgebungen hinweg ermöglicht. Experimente mit Manipulations-, Navigations- und trajektorienzentrierten Benchmarks zeigen konsistente Multi-Task-Leistung und Verallgemeinerung außerhalb der Verteilung unter Variationen von Szenenlayout, Hintergrund, Beleuchtung, Objektkonfiguration und Roboterausführung. Qwen-VLA-Instruct erreicht 97,9 % auf LIBERO, 73,7 % auf Simpler-WidowX, 86,1 %/87,2 % auf RoboTwin-Easy/Hard, 69,0 % OSR auf R2R, 59,6 % SR auf RxR, 76,9 % durchschnittlichen OOD-Erfolg in realen ALOHA-Experimenten und 26,6 % Zero-Shot-Erfolg bei DOMINO-Dynamikmanipulation.

English

Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fragmented capabilities and limited generalization across tasks, environments, and robot embodiments. In this work, we study whether heterogeneous embodied decision-making problems can be unified within a single vision-language-action model. We present Qwen-VLA, a unified embodied foundation model that extends Qwen's vision-language modeling stack from perception, understanding, and reasoning to continuous action and trajectory generation through a DiT-based action decoder. Qwen-VLA is trained with a large-scale joint pretraining recipe over diverse data sources, including robotics manipulation trajectories, human egocentric demonstrations, synthetic simulation data, vision-and-language navigation data, trajectory-centric supervision, and auxiliary vision-language data. To support multiple robot platforms, we introduce embodiment-aware prompt conditioning, where robot-specific textual descriptions specify the current embodiment and control convention. We further cast manipulation, navigation, and trajectory prediction into a unified action-and-trajectory prediction framework, enabling transferable visual grounding, spatial reasoning, and continuous action generation across robot morphologies, task families, and environments. Experiments on manipulation, navigation, and trajectory-centric benchmarks show consistent multi-task performance and out-of-distribution generalization under variations in scene layout, background, lighting, object configuration, and robot embodiment. Qwen-VLA-Instruct achieves 97.9% on LIBERO, 73.7% on Simpler-WidowX, 86.1%/87.2% on RoboTwin-Easy/Hard, 69.0% OSR on R2R, 59.6% SR on RxR, 76.9% average OOD success in real-world ALOHA experiments, and 26.6% zero-shot success on DOMINO dynamic manipulation.