Qwen-VLA: Unificando el modelado de visión-lenguaje-acción entre tareas, entornos y morfologías robóticas

Resumen

La inteligencia encarnada suele estudiarse mediante modelos especializados para tareas individuales como la manipulación o la navegación, lo que genera capacidades fragmentadas y una generalización limitada entre tareas, entornos y configuraciones robóticas. En este trabajo, investigamos si problemas heterogéneos de toma de decisiones encarnadas pueden unificarse en un único modelo de visión-lenguaje-acción. Presentamos Qwen-VLA, un modelo fundacional encarnado unificado que extiende la pila de modelado de visión-lenguaje de Qwen desde la percepción, comprensión y razonamiento hasta la generación continua de acciones y trayectorias mediante un decodificador de acciones basado en DiT. Qwen-VLA se entrena con una receta de preentrenamiento conjunto a gran escala sobre diversas fuentes de datos, incluyendo trayectorias de manipulación robótica, demostraciones egocéntricas humanas, datos de simulación sintética, datos de navegación por visión y lenguaje, supervisión centrada en trayectorias y datos auxiliares de visión-lenguaje. Para soportar múltiples plataformas robóticas, introducimos un condicionamiento de indicaciones consciente de la encarnación, donde descripciones textuales específicas del robot especifican la encarnación actual y la convención de control. Además, reformulamos la manipulación, la navegación y la predicción de trayectorias en un marco unificado de predicción de acciones y trayectorias, habilitando un anclaje visual transferible, razonamiento espacial y generación continua de acciones a través de morfologías robóticas, familias de tareas y entornos. Los experimentos en puntos de referencia centrados en manipulación, navegación y trayectorias muestran un rendimiento multitarea consistente y una generalización fuera de distribución ante variaciones en el diseño de la escena, el fondo, la iluminación, la configuración de objetos y la encarnación robótica. Qwen-VLA-Instruct logra un 97,9% en LIBERO, un 73,7% en Simpler-WidowX, un 86,1%/87,2% en RoboTwin-Easy/Hard, un 69,0% de OSR en R2R, un 59,6% de SR en RxR, un 76,9% de éxito promedio fuera de distribución en experimentos reales de ALOHA, y un 26,6% de éxito en cero disparos en la manipulación dinámica de DOMINO.

English

Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fragmented capabilities and limited generalization across tasks, environments, and robot embodiments. In this work, we study whether heterogeneous embodied decision-making problems can be unified within a single vision-language-action model. We present Qwen-VLA, a unified embodied foundation model that extends Qwen's vision-language modeling stack from perception, understanding, and reasoning to continuous action and trajectory generation through a DiT-based action decoder. Qwen-VLA is trained with a large-scale joint pretraining recipe over diverse data sources, including robotics manipulation trajectories, human egocentric demonstrations, synthetic simulation data, vision-and-language navigation data, trajectory-centric supervision, and auxiliary vision-language data. To support multiple robot platforms, we introduce embodiment-aware prompt conditioning, where robot-specific textual descriptions specify the current embodiment and control convention. We further cast manipulation, navigation, and trajectory prediction into a unified action-and-trajectory prediction framework, enabling transferable visual grounding, spatial reasoning, and continuous action generation across robot morphologies, task families, and environments. Experiments on manipulation, navigation, and trajectory-centric benchmarks show consistent multi-task performance and out-of-distribution generalization under variations in scene layout, background, lighting, object configuration, and robot embodiment. Qwen-VLA-Instruct achieves 97.9% on LIBERO, 73.7% on Simpler-WidowX, 86.1%/87.2% on RoboTwin-Easy/Hard, 69.0% OSR on R2R, 59.6% SR on RxR, 76.9% average OOD success in real-world ALOHA experiments, and 26.6% zero-shot success on DOMINO dynamic manipulation.