Vlaser: 시너지적 체화 추론을 갖춘 비전-언어-행동 모델
Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
October 13, 2025
저자: Ganlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou
cs.AI
초록
시각-언어 모델(VLMs)을 활용한 구체화된 추론 능력 개발이나, 최첨단 VLMs를 종단 간 로봇 제어를 위한 시각-언어-행동(VLA) 모델에 통합하는 데 초점을 맞춘 상당한 연구가 진행되었음에도 불구하고, 상류 VLM 기반 추론과 하류 VLA 정책 학습 간의 중요한 격차를 직접적으로 다룬 연구는 거의 없다. 본 연구에서는 Vlaser라는 시각-언어-행동 모델을 도입하여 구체화된 추론 능력을 융합함으로써, 구체화된 추론과 VLA 정책 학습 간의 간극을 메우는 첫걸음을 내딛는다. Vlaser는 고수준 추론과 저수준 제어를 통합하도록 설계된 기초 시각-언어 모델로, 고품질 Vlaser-6M 데이터셋을 기반으로 구축되었다. Vlaser는 공간 추론, 구체화된 기반, 구체화된 질의응답, 작업 계획 등 다양한 구체화된 추론 벤치마크에서 최첨단 성능을 달성한다. 또한, 우리는 다양한 VLM 초기화가 지도 학습 기반 VLA 미세 조정에 미치는 영향을 체계적으로 검토함으로써, 인터넷 규모의 사전 학습 데이터와 구체화된 정책 학습 데이터 간의 도메인 변화를 완화하는 데 대한 새로운 통찰을 제공한다. 이러한 통찰을 바탕으로, 우리의 접근 방식은 WidowX 벤치마크에서 최첨단 결과를 달성하고 Google Robot 벤치마크에서도 경쟁력 있는 성능을 보인다.
English
While significant research has focused on developing embodied reasoning
capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs
into Vision-Language-Action (VLA) models for end-to-end robot control, few
studies directly address the critical gap between upstream VLM-based reasoning
and downstream VLA policy learning. In this work, we take an initial step
toward bridging embodied reasoning with VLA policy learning by introducing
Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning
capability, which is a foundational vision-language model designed to integrate
high-level reasoning with low-level control for embodied agents. Built upon the
high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance
across a range of embodied reasoning benchmarks - including spatial reasoning,
embodied grounding, embodied QA, and task planning. Furthermore, we
systematically examine how different VLM initializations affect supervised VLA
fine-tuning, offering novel insights into mitigating the domain shift between
internet-scale pre-training data and embodied-specific policy learning data.
Based on these insights, our approach achieves state-of-the-art results on the
WidowX benchmark and competitive performance on the Google Robot benchmark.