Vlaser: Vision-Taal-Actie Model met Synergetisch Belichaamd Redeneren

Samenvatting

Hoewel aanzienlijk onderzoek zich heeft gericht op het ontwikkelen van belichaamde redeneervaardigheden met behulp van Vision-Language Models (VLMs) of het integreren van geavanceerde VLMs in Vision-Language-Action (VLA) modellen voor end-to-end robotbesturing, behandelen weinig studies direct de kritieke kloof tussen upstream VLM-gebaseerd redeneren en downstream VLA-beleidsleren. In dit werk zetten we een eerste stap naar het overbruggen van belichaamd redeneren met VLA-beleidsleren door Vlaser te introduceren - een Vision-Language-Action Model met synergetische belichaamde redeneervaardigheid, wat een fundamenteel vision-language model is dat ontworpen is om hoogwaardig redeneren te integreren met laagwaardige besturing voor belichaamde agents. Gebouwd op basis van de hoogwaardige Vlaser-6M dataset, behaalt Vlaser state-of-the-art prestaties op een reeks belichaamde redeneerbenchmarks - inclusief ruimtelijk redeneren, belichaamde gronding, belichaamde QA en taakplanning. Bovendien onderzoeken we systematisch hoe verschillende VLM-initialisaties supervised VLA-finetuning beïnvloeden, wat nieuwe inzichten biedt in het verminderen van de domeinverschuiving tussen internet-schaal pre-trainingsdata en belichaamde-specifieke beleidslerendata. Op basis van deze inzichten behaalt onze aanpak state-of-the-art resultaten op de WidowX benchmark en competitieve prestaties op de Google Robot benchmark.

English

While significant research has focused on developing embodied reasoning capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs into Vision-Language-Action (VLA) models for end-to-end robot control, few studies directly address the critical gap between upstream VLM-based reasoning and downstream VLA policy learning. In this work, we take an initial step toward bridging embodied reasoning with VLA policy learning by introducing Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning capability, which is a foundational vision-language model designed to integrate high-level reasoning with low-level control for embodied agents. Built upon the high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance across a range of embodied reasoning benchmarks - including spatial reasoning, embodied grounding, embodied QA, and task planning. Furthermore, we systematically examine how different VLM initializations affect supervised VLA fine-tuning, offering novel insights into mitigating the domain shift between internet-scale pre-training data and embodied-specific policy learning data. Based on these insights, our approach achieves state-of-the-art results on the WidowX benchmark and competitive performance on the Google Robot benchmark.

Vlaser: Vision-Taal-Actie Model met Synergetisch Belichaamd Redeneren

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

Samenvatting

Support