ChatPaper.aiChatPaper

Vlaser: Vision-Taal-Actie Model met Synergetisch Belichaamd Redeneren

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

October 13, 2025
Auteurs: Ganlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou
cs.AI

Samenvatting

Hoewel aanzienlijk onderzoek zich heeft gericht op het ontwikkelen van belichaamde redeneervaardigheden met behulp van Vision-Language Models (VLMs) of het integreren van geavanceerde VLMs in Vision-Language-Action (VLA) modellen voor end-to-end robotbesturing, behandelen weinig studies direct de kritieke kloof tussen upstream VLM-gebaseerd redeneren en downstream VLA-beleidsleren. In dit werk zetten we een eerste stap naar het overbruggen van belichaamd redeneren met VLA-beleidsleren door Vlaser te introduceren - een Vision-Language-Action Model met synergetische belichaamde redeneervaardigheid, wat een fundamenteel vision-language model is dat ontworpen is om hoogwaardig redeneren te integreren met laagwaardige besturing voor belichaamde agents. Gebouwd op basis van de hoogwaardige Vlaser-6M dataset, behaalt Vlaser state-of-the-art prestaties op een reeks belichaamde redeneerbenchmarks - inclusief ruimtelijk redeneren, belichaamde gronding, belichaamde QA en taakplanning. Bovendien onderzoeken we systematisch hoe verschillende VLM-initialisaties supervised VLA-finetuning beïnvloeden, wat nieuwe inzichten biedt in het verminderen van de domeinverschuiving tussen internet-schaal pre-trainingsdata en belichaamde-specifieke beleidslerendata. Op basis van deze inzichten behaalt onze aanpak state-of-the-art resultaten op de WidowX benchmark en competitieve prestaties op de Google Robot benchmark.
English
While significant research has focused on developing embodied reasoning capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs into Vision-Language-Action (VLA) models for end-to-end robot control, few studies directly address the critical gap between upstream VLM-based reasoning and downstream VLA policy learning. In this work, we take an initial step toward bridging embodied reasoning with VLA policy learning by introducing Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning capability, which is a foundational vision-language model designed to integrate high-level reasoning with low-level control for embodied agents. Built upon the high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance across a range of embodied reasoning benchmarks - including spatial reasoning, embodied grounding, embodied QA, and task planning. Furthermore, we systematically examine how different VLM initializations affect supervised VLA fine-tuning, offering novel insights into mitigating the domain shift between internet-scale pre-training data and embodied-specific policy learning data. Based on these insights, our approach achieves state-of-the-art results on the WidowX benchmark and competitive performance on the Google Robot benchmark.
PDF182October 14, 2025