Vlaser: Модель "Видение-Язык-Действие" с синергетическим воплощённым рассуждением
Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
October 13, 2025
Авторы: Ganlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou
cs.AI
Аннотация
Хотя значительные исследования были сосредоточены на разработке способностей к воплощенному рассуждению с использованием моделей "Визия-Язык" (Vision-Language Models, VLMs) или интеграции продвинутых VLMs в модели "Визия-Язык-Действие" (Vision-Language-Action, VLA) для сквозного управления роботами, лишь немногие работы непосредственно затрагивают критический разрыв между рассуждениями на основе VLMs и обучением политик VLA. В данной работе мы делаем первый шаг к объединению воплощенного рассуждения с обучением политик VLA, представляя Vlaser — модель "Визия-Язык-Действие" с синергетической способностью к воплощенному рассуждению, которая представляет собой базовую модель "Визия-Язык", предназначенную для интеграции высокоуровневого рассуждения с низкоуровневым управлением для воплощенных агентов. Построенная на основе высококачественного набора данных Vlaser-6M, модель Vlaser демонстрирует наилучшие результаты на ряде бенчмарков для воплощенного рассуждения, включая пространственное рассуждение, воплощенное заземление, воплощенные вопросы и ответы, а также планирование задач. Кроме того, мы систематически исследуем, как различные инициализации VLMs влияют на контролируемую тонкую настройку VLA, предлагая новые идеи для смягчения сдвига домена между данными предварительного обучения интернет-масштаба и данными для обучения политик, специфичных для воплощенных систем. На основе этих идей наш подход достигает наилучших результатов на бенчмарке WidowX и конкурентоспособных показателей на бенчмарке Google Robot.
English
While significant research has focused on developing embodied reasoning
capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs
into Vision-Language-Action (VLA) models for end-to-end robot control, few
studies directly address the critical gap between upstream VLM-based reasoning
and downstream VLA policy learning. In this work, we take an initial step
toward bridging embodied reasoning with VLA policy learning by introducing
Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning
capability, which is a foundational vision-language model designed to integrate
high-level reasoning with low-level control for embodied agents. Built upon the
high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance
across a range of embodied reasoning benchmarks - including spatial reasoning,
embodied grounding, embodied QA, and task planning. Furthermore, we
systematically examine how different VLM initializations affect supervised VLA
fine-tuning, offering novel insights into mitigating the domain shift between
internet-scale pre-training data and embodied-specific policy learning data.
Based on these insights, our approach achieves state-of-the-art results on the
WidowX benchmark and competitive performance on the Google Robot benchmark.