Vlaser: Modelo Visión-Lenguaje-Acción con Razonamiento Embebido Sinérgico
Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
October 13, 2025
Autores: Ganlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou
cs.AI
Resumen
Si bien una investigación significativa se ha centrado en desarrollar capacidades de razonamiento encarnado utilizando Modelos de Visión-Lenguaje (VLMs) o en integrar VLMs avanzados en modelos de Visión-Lenguaje-Acción (VLA) para el control de robots de extremo a extremo, pocos estudios abordan directamente la brecha crítica entre el razonamiento basado en VLMs en la etapa inicial y el aprendizaje de políticas VLA en la etapa final. En este trabajo, damos un primer paso hacia la conexión del razonamiento encarnado con el aprendizaje de políticas VLA mediante la introducción de Vlaser, un Modelo de Visión-Lenguaje-Acción con capacidad de razonamiento encarnado sinérgico, que es un modelo fundamental de visión-lenguaje diseñado para integrar el razonamiento de alto nivel con el control de bajo nivel para agentes encarnados. Basado en el conjunto de datos de alta calidad Vlaser-6M, Vlaser logra un rendimiento de vanguardia en una variedad de benchmarks de razonamiento encarnado, incluyendo razonamiento espacial, fundamentación encarnada, preguntas y respuestas encarnadas, y planificación de tareas. Además, examinamos sistemáticamente cómo diferentes inicializaciones de VLMs afectan el ajuste fino supervisado de VLA, ofreciendo nuevas perspectivas para mitigar el cambio de dominio entre los datos de preentrenamiento a escala de internet y los datos de aprendizaje de políticas específicos para entornos encarnados. Basándonos en estas perspectivas, nuestro enfoque logra resultados de vanguardia en el benchmark WidowX y un rendimiento competitivo en el benchmark Google Robot.
English
While significant research has focused on developing embodied reasoning
capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs
into Vision-Language-Action (VLA) models for end-to-end robot control, few
studies directly address the critical gap between upstream VLM-based reasoning
and downstream VLA policy learning. In this work, we take an initial step
toward bridging embodied reasoning with VLA policy learning by introducing
Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning
capability, which is a foundational vision-language model designed to integrate
high-level reasoning with low-level control for embodied agents. Built upon the
high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance
across a range of embodied reasoning benchmarks - including spatial reasoning,
embodied grounding, embodied QA, and task planning. Furthermore, we
systematically examine how different VLM initializations affect supervised VLA
fine-tuning, offering novel insights into mitigating the domain shift between
internet-scale pre-training data and embodied-specific policy learning data.
Based on these insights, our approach achieves state-of-the-art results on the
WidowX benchmark and competitive performance on the Google Robot benchmark.