ChatPaper.aiChatPaper

Vlaser: Modello Visione-Linguaggio-Azione con Ragionamento Embodied Sinergico

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

October 13, 2025
Autori: Ganlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou
cs.AI

Abstract

Sebbene una significativa ricerca si sia concentrata sullo sviluppo di capacità di ragionamento incarnato utilizzando modelli visione-linguaggio (VLMs) o sull'integrazione di VLMs avanzati in modelli visione-linguaggio-azione (VLA) per il controllo end-to-end dei robot, pochi studi affrontano direttamente il divario critico tra il ragionamento basato su VLMs a monte e l'apprendimento delle politiche VLA a valle. In questo lavoro, compiamo un primo passo verso il collegamento del ragionamento incarnato con l'apprendimento delle politiche VLA introducendo Vlaser - un modello visione-linguaggio-azione con capacità di ragionamento incarnato sinergico, che è un modello fondamentale visione-linguaggio progettato per integrare il ragionamento di alto livello con il controllo di basso livello per agenti incarnati. Basato sul dataset di alta qualità Vlaser-6M, Vlaser raggiunge prestazioni all'avanguardia in una gamma di benchmark di ragionamento incarnato, tra cui ragionamento spaziale, grounding incarnato, QA incarnato e pianificazione di compiti. Inoltre, esaminiamo sistematicamente come diverse inizializzazioni di VLMs influenzino la messa a punto supervisionata di VLA, offrendo nuove intuizioni per mitigare lo spostamento di dominio tra i dati di pre-addestramento su scala internet e i dati specifici per l'apprendimento di politiche incarnate. Sulla base di queste intuizioni, il nostro approccio ottiene risultati all'avanguardia sul benchmark WidowX e prestazioni competitive sul benchmark Google Robot.
English
While significant research has focused on developing embodied reasoning capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs into Vision-Language-Action (VLA) models for end-to-end robot control, few studies directly address the critical gap between upstream VLM-based reasoning and downstream VLA policy learning. In this work, we take an initial step toward bridging embodied reasoning with VLA policy learning by introducing Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning capability, which is a foundational vision-language model designed to integrate high-level reasoning with low-level control for embodied agents. Built upon the high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance across a range of embodied reasoning benchmarks - including spatial reasoning, embodied grounding, embodied QA, and task planning. Furthermore, we systematically examine how different VLM initializations affect supervised VLA fine-tuning, offering novel insights into mitigating the domain shift between internet-scale pre-training data and embodied-specific policy learning data. Based on these insights, our approach achieves state-of-the-art results on the WidowX benchmark and competitive performance on the Google Robot benchmark.
PDF182October 14, 2025