Vlaser: Modello Visione-Linguaggio-Azione con Ragionamento Embodied Sinergico

Abstract

Sebbene una significativa ricerca si sia concentrata sullo sviluppo di capacità di ragionamento incarnato utilizzando modelli visione-linguaggio (VLMs) o sull'integrazione di VLMs avanzati in modelli visione-linguaggio-azione (VLA) per il controllo end-to-end dei robot, pochi studi affrontano direttamente il divario critico tra il ragionamento basato su VLMs a monte e l'apprendimento delle politiche VLA a valle. In questo lavoro, compiamo un primo passo verso il collegamento del ragionamento incarnato con l'apprendimento delle politiche VLA introducendo Vlaser - un modello visione-linguaggio-azione con capacità di ragionamento incarnato sinergico, che è un modello fondamentale visione-linguaggio progettato per integrare il ragionamento di alto livello con il controllo di basso livello per agenti incarnati. Basato sul dataset di alta qualità Vlaser-6M, Vlaser raggiunge prestazioni all'avanguardia in una gamma di benchmark di ragionamento incarnato, tra cui ragionamento spaziale, grounding incarnato, QA incarnato e pianificazione di compiti. Inoltre, esaminiamo sistematicamente come diverse inizializzazioni di VLMs influenzino la messa a punto supervisionata di VLA, offrendo nuove intuizioni per mitigare lo spostamento di dominio tra i dati di pre-addestramento su scala internet e i dati specifici per l'apprendimento di politiche incarnate. Sulla base di queste intuizioni, il nostro approccio ottiene risultati all'avanguardia sul benchmark WidowX e prestazioni competitive sul benchmark Google Robot.

English

While significant research has focused on developing embodied reasoning capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs into Vision-Language-Action (VLA) models for end-to-end robot control, few studies directly address the critical gap between upstream VLM-based reasoning and downstream VLA policy learning. In this work, we take an initial step toward bridging embodied reasoning with VLA policy learning by introducing Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning capability, which is a foundational vision-language model designed to integrate high-level reasoning with low-level control for embodied agents. Built upon the high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance across a range of embodied reasoning benchmarks - including spatial reasoning, embodied grounding, embodied QA, and task planning. Furthermore, we systematically examine how different VLM initializations affect supervised VLA fine-tuning, offering novel insights into mitigating the domain shift between internet-scale pre-training data and embodied-specific policy learning data. Based on these insights, our approach achieves state-of-the-art results on the WidowX benchmark and competitive performance on the Google Robot benchmark.

Vlaser: Modello Visione-Linguaggio-Azione con Ragionamento Embodied Sinergico

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

Abstract

Support