Vlaser: シナジスティックな身体化推論を備えた視覚-言語-行動モデル
Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
October 13, 2025
著者: Ganlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou
cs.AI
要旨
視覚言語モデル(VLM)を用いた具現化推論能力の開発や、高度なVLMを視覚言語行動(VLA)モデルに統合してエンドツーエンドのロボット制御を実現する研究が多く行われている一方で、上流のVLMベースの推論と下流のVLAポリシー学習の間にある重要なギャップに直接取り組む研究はほとんどない。本研究では、Vlaserという、高次元の推論と低次元の制御を統合するための基盤となる視覚言語行動モデルを導入し、具現化推論能力をVLAポリシー学習と連携させるための第一歩を踏み出す。Vlaserは、高品質なVlaser-6Mデータセットに基づいて構築され、空間推論、具現化グラウンディング、具現化QA、タスク計画など、さまざまな具現化推論ベンチマークで最先端の性能を達成する。さらに、異なるVLM初期化が教師ありVLAファインチューニングにどのように影響するかを体系的に検証し、インターネット規模の事前学習データと具現化固有のポリシー学習データの間のドメインシフトを緩和するための新たな知見を提供する。これらの知見に基づき、我々のアプローチはWidowXベンチマークで最先端の結果を達成し、Google Robotベンチマークでも競争力のある性能を示す。
English
While significant research has focused on developing embodied reasoning
capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs
into Vision-Language-Action (VLA) models for end-to-end robot control, few
studies directly address the critical gap between upstream VLM-based reasoning
and downstream VLA policy learning. In this work, we take an initial step
toward bridging embodied reasoning with VLA policy learning by introducing
Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning
capability, which is a foundational vision-language model designed to integrate
high-level reasoning with low-level control for embodied agents. Built upon the
high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance
across a range of embodied reasoning benchmarks - including spatial reasoning,
embodied grounding, embodied QA, and task planning. Furthermore, we
systematically examine how different VLM initializations affect supervised VLA
fine-tuning, offering novel insights into mitigating the domain shift between
internet-scale pre-training data and embodied-specific policy learning data.
Based on these insights, our approach achieves state-of-the-art results on the
WidowX benchmark and competitive performance on the Google Robot benchmark.