Vlaser : Modèle Vision-Langue-Action avec Raisonnement Embodié Synergétique
Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
October 13, 2025
papers.authors: Ganlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou
cs.AI
papers.abstract
Alors qu'une recherche significative s'est concentrée sur le développement de capacités de raisonnement incarné en utilisant des modèles vision-langage (VLMs) ou sur l'intégration de VLMs avancés dans des modèles vision-langage-action (VLA) pour le contrôle robotique de bout en bout, peu d'études abordent directement le fossé critique entre le raisonnement basé sur les VLMs en amont et l'apprentissage des politiques VLA en aval. Dans ce travail, nous faisons un premier pas vers le rapprochement du raisonnement incarné avec l'apprentissage des politiques VLA en introduisant Vlaser - un modèle vision-langage-action doté d'une capacité de raisonnement incarné synergique, qui est un modèle fondamental vision-langage conçu pour intégrer un raisonnement de haut niveau avec un contrôle de bas niveau pour les agents incarnés. Construit sur le jeu de données de haute qualité Vlaser-6M, Vlaser atteint des performances de pointe sur une gamme de benchmarks de raisonnement incarné - incluant le raisonnement spatial, l'ancrage incarné, les questions-réponses incarnées et la planification de tâches. De plus, nous examinons systématiquement comment différentes initialisations de VLMs affectent le fine-tuning supervisé des VLA, offrant de nouvelles perspectives pour atténuer le décalage de domaine entre les données de pré-entraînement à l'échelle d'Internet et les données spécifiques à l'apprentissage de politiques incarnées. Sur la base de ces insights, notre approche obtient des résultats de pointe sur le benchmark WidowX et des performances compétitives sur le benchmark Google Robot.
English
While significant research has focused on developing embodied reasoning
capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs
into Vision-Language-Action (VLA) models for end-to-end robot control, few
studies directly address the critical gap between upstream VLM-based reasoning
and downstream VLA policy learning. In this work, we take an initial step
toward bridging embodied reasoning with VLA policy learning by introducing
Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning
capability, which is a foundational vision-language model designed to integrate
high-level reasoning with low-level control for embodied agents. Built upon the
high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance
across a range of embodied reasoning benchmarks - including spatial reasoning,
embodied grounding, embodied QA, and task planning. Furthermore, we
systematically examine how different VLM initializations affect supervised VLA
fine-tuning, offering novel insights into mitigating the domain shift between
internet-scale pre-training data and embodied-specific policy learning data.
Based on these insights, our approach achieves state-of-the-art results on the
WidowX benchmark and competitive performance on the Google Robot benchmark.