ChatPaper.aiChatPaper

Vlaser: Vision-Sprache-Handlungs-Modell mit synergistischem verkörpertem Denken

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

October 13, 2025
papers.authors: Ganlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou
cs.AI

papers.abstract

Während sich ein Großteil der Forschung auf die Entwicklung von verkörperten Denkfähigkeiten mithilfe von Vision-Language-Modellen (VLMs) oder die Integration fortschrittlicher VLMs in Vision-Language-Action-Modelle (VLA) zur End-to-End-Robotersteuerung konzentriert hat, gibt es nur wenige Studien, die die kritische Lücke zwischen dem auf VLMs basierten Upstream-Denken und dem Downstream-VLA-Policy-Lernen direkt adressieren. In dieser Arbeit unternehmen wir einen ersten Schritt zur Verknüpfung von verkörpertem Denken mit VLA-Policy-Lernen, indem wir Vlaser vorstellen – ein Vision-Language-Action-Modell mit synergetischer verkörperter Denkfähigkeit, das als grundlegendes Vision-Language-Modell entwickelt wurde, um hochrangiges Denken mit niedrigrangiger Steuerung für verkörperte Agenten zu integrieren. Basierend auf dem hochwertigen Vlaser-6M-Datensatz erzielt Vlaser Spitzenleistungen in einer Reihe von verkörperten Denkbenchmarks, einschließlich räumlichem Denken, verkörperter Verankerung, verkörperter Frage-Antwort-Interaktion und Aufgabenplanung. Darüber hinaus untersuchen wir systematisch, wie unterschiedliche VLM-Initialisierungen das überwachte VLA-Fine-Tuning beeinflussen, und bieten neue Einblicke in die Minderung des Domänenwechsels zwischen internetbasierten Vorab-Trainingsdaten und verkörpertem Policy-Lernen. Aufbauend auf diesen Erkenntnissen erzielt unser Ansatz Spitzenergebnisse im WidowX-Benchmark und wettbewerbsfähige Leistungen im Google-Robot-Benchmark.
English
While significant research has focused on developing embodied reasoning capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs into Vision-Language-Action (VLA) models for end-to-end robot control, few studies directly address the critical gap between upstream VLM-based reasoning and downstream VLA policy learning. In this work, we take an initial step toward bridging embodied reasoning with VLA policy learning by introducing Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning capability, which is a foundational vision-language model designed to integrate high-level reasoning with low-level control for embodied agents. Built upon the high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance across a range of embodied reasoning benchmarks - including spatial reasoning, embodied grounding, embodied QA, and task planning. Furthermore, we systematically examine how different VLM initializations affect supervised VLA fine-tuning, offering novel insights into mitigating the domain shift between internet-scale pre-training data and embodied-specific policy learning data. Based on these insights, our approach achieves state-of-the-art results on the WidowX benchmark and competitive performance on the Google Robot benchmark.
PDF182October 14, 2025