Qwen-VLA: Унификация моделирования зрения-языка-действия в различных задачах, средах и воплощениях роботов

Аннотация

Воплощенный интеллект часто изучается с помощью специализированных моделей для отдельных задач, таких как манипуляции или навигация, что приводит к фрагментированным возможностям и ограниченному обобщению на различные задачи, среды и воплощения роботов. В данной работе мы исследуем, можно ли объединить гетерогенные проблемы принятия решений в рамках воплощенного интеллекта в единой модели «зрение-язык-действие». Мы представляем Qwen-VLA — унифицированную фундаментальную модель воплощенного интеллекта, которая расширяет стек моделирования «зрение-язык» Qwen от восприятия, понимания и рассуждения до генерации непрерывных действий и траекторий с помощью декодера действий на основе DiT. Qwen-VLA обучается с использованием крупномасштабного рецепта совместного предварительного обучения на разнообразных источниках данных, включая траектории манипуляций роботов, эгоцентрические демонстрации человека, синтетические данные моделирования, данные навигации на основе зрения и языка, обучение с акцентом на траектории, а также вспомогательные данные «зрение-язык». Для поддержки нескольких роботизированных платформ мы вводим метод условной подсказки с учетом воплощения, в котором текстовые описания, специфичные для робота, задают текущее воплощение и соглашение об управлении. Мы также сводим задачи манипуляции, навигации и прогнозирования траекторий в единую структуру прогнозирования действий и траекторий, обеспечивающую переносимую визуальную привязку, пространственное рассуждение и генерацию непрерывных действий в различных морфологиях роботов, семействах задач и средах. Эксперименты на эталонных тестах манипуляции, навигации и траекторий демонстрируют стабильную многофункциональную производительность и обобщение на данные вне распределения при изменениях в расположении сцены, фоне, освещении, конфигурации объектов и воплощении робота. Qwen-VLA-Instruct достигает 97,9% на LIBERO, 73,7% на Simpler-WidowX, 86,1%/87,2% на RoboTwin-Easy/Hard, 69,0% OSR на R2R, 59,6% SR на RxR, 76,9% средней успешности OOD в реальных экспериментах ALOHA и 26,6% успешности при нулевом обучении на динамической манипуляции DOMINO.

English

Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fragmented capabilities and limited generalization across tasks, environments, and robot embodiments. In this work, we study whether heterogeneous embodied decision-making problems can be unified within a single vision-language-action model. We present Qwen-VLA, a unified embodied foundation model that extends Qwen's vision-language modeling stack from perception, understanding, and reasoning to continuous action and trajectory generation through a DiT-based action decoder. Qwen-VLA is trained with a large-scale joint pretraining recipe over diverse data sources, including robotics manipulation trajectories, human egocentric demonstrations, synthetic simulation data, vision-and-language navigation data, trajectory-centric supervision, and auxiliary vision-language data. To support multiple robot platforms, we introduce embodiment-aware prompt conditioning, where robot-specific textual descriptions specify the current embodiment and control convention. We further cast manipulation, navigation, and trajectory prediction into a unified action-and-trajectory prediction framework, enabling transferable visual grounding, spatial reasoning, and continuous action generation across robot morphologies, task families, and environments. Experiments on manipulation, navigation, and trajectory-centric benchmarks show consistent multi-task performance and out-of-distribution generalization under variations in scene layout, background, lighting, object configuration, and robot embodiment. Qwen-VLA-Instruct achieves 97.9% on LIBERO, 73.7% on Simpler-WidowX, 86.1%/87.2% on RoboTwin-Easy/Hard, 69.0% OSR on R2R, 59.6% SR on RxR, 76.9% average OOD success in real-world ALOHA experiments, and 26.6% zero-shot success on DOMINO dynamic manipulation.