Vlaser: Vision-Sprache-Handlungs-Modell mit synergistischem verkörpertem Denken

papers.abstract

Während sich ein Großteil der Forschung auf die Entwicklung von verkörperten Denkfähigkeiten mithilfe von Vision-Language-Modellen (VLMs) oder die Integration fortschrittlicher VLMs in Vision-Language-Action-Modelle (VLA) zur End-to-End-Robotersteuerung konzentriert hat, gibt es nur wenige Studien, die die kritische Lücke zwischen dem auf VLMs basierten Upstream-Denken und dem Downstream-VLA-Policy-Lernen direkt adressieren. In dieser Arbeit unternehmen wir einen ersten Schritt zur Verknüpfung von verkörpertem Denken mit VLA-Policy-Lernen, indem wir Vlaser vorstellen – ein Vision-Language-Action-Modell mit synergetischer verkörperter Denkfähigkeit, das als grundlegendes Vision-Language-Modell entwickelt wurde, um hochrangiges Denken mit niedrigrangiger Steuerung für verkörperte Agenten zu integrieren. Basierend auf dem hochwertigen Vlaser-6M-Datensatz erzielt Vlaser Spitzenleistungen in einer Reihe von verkörperten Denkbenchmarks, einschließlich räumlichem Denken, verkörperter Verankerung, verkörperter Frage-Antwort-Interaktion und Aufgabenplanung. Darüber hinaus untersuchen wir systematisch, wie unterschiedliche VLM-Initialisierungen das überwachte VLA-Fine-Tuning beeinflussen, und bieten neue Einblicke in die Minderung des Domänenwechsels zwischen internetbasierten Vorab-Trainingsdaten und verkörpertem Policy-Lernen. Aufbauend auf diesen Erkenntnissen erzielt unser Ansatz Spitzenergebnisse im WidowX-Benchmark und wettbewerbsfähige Leistungen im Google-Robot-Benchmark.

English

While significant research has focused on developing embodied reasoning capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs into Vision-Language-Action (VLA) models for end-to-end robot control, few studies directly address the critical gap between upstream VLM-based reasoning and downstream VLA policy learning. In this work, we take an initial step toward bridging embodied reasoning with VLA policy learning by introducing Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning capability, which is a foundational vision-language model designed to integrate high-level reasoning with low-level control for embodied agents. Built upon the high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance across a range of embodied reasoning benchmarks - including spatial reasoning, embodied grounding, embodied QA, and task planning. Furthermore, we systematically examine how different VLM initializations affect supervised VLA fine-tuning, offering novel insights into mitigating the domain shift between internet-scale pre-training data and embodied-specific policy learning data. Based on these insights, our approach achieves state-of-the-art results on the WidowX benchmark and competitive performance on the Google Robot benchmark.

Vlaser: Vision-Sprache-Handlungs-Modell mit synergistischem verkörpertem Denken

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

papers.abstract

Support