ChatPaper.aiChatPaper

Vlaser: Modelo Visão-Linguagem-Ação com Raciocínio Embarcado Sinérgico

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

October 13, 2025
Autores: Ganlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou
cs.AI

Resumo

Embora pesquisas significativas tenham se concentrado no desenvolvimento de capacidades de raciocínio incorporado usando Modelos de Visão e Linguagem (VLMs) ou na integração de VLMs avançados em modelos de Visão, Linguagem e Ação (VLA) para controle de robôs de ponta a ponta, poucos estudos abordam diretamente a lacuna crítica entre o raciocínio baseado em VLM de nível superior e o aprendizado de políticas VLA de nível inferior. Neste trabalho, damos um passo inicial para conectar o raciocínio incorporado ao aprendizado de políticas VLA, introduzindo o Vlaser - um Modelo de Visão, Linguagem e Ação com capacidade sinérgica de raciocínio incorporado, que é um modelo fundamental de visão e linguagem projetado para integrar raciocínio de alto nível com controle de baixo nível para agentes incorporados. Construído com base no conjunto de dados de alta qualidade Vlaser-6M, o Vlaser alcança desempenho de ponta em uma variedade de benchmarks de raciocínio incorporado - incluindo raciocínio espacial, fundamentação incorporada, perguntas e respostas incorporadas e planejamento de tarefas. Além disso, examinamos sistematicamente como diferentes inicializações de VLM afetam o ajuste fino supervisionado de VLA, oferecendo novos insights para mitigar a mudança de domínio entre dados de pré-treinamento em escala da internet e dados específicos de aprendizado de políticas incorporadas. Com base nessas descobertas, nossa abordagem alcança resultados de ponta no benchmark WidowX e desempenho competitivo no benchmark Google Robot.
English
While significant research has focused on developing embodied reasoning capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs into Vision-Language-Action (VLA) models for end-to-end robot control, few studies directly address the critical gap between upstream VLM-based reasoning and downstream VLA policy learning. In this work, we take an initial step toward bridging embodied reasoning with VLA policy learning by introducing Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning capability, which is a foundational vision-language model designed to integrate high-level reasoning with low-level control for embodied agents. Built upon the high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance across a range of embodied reasoning benchmarks - including spatial reasoning, embodied grounding, embodied QA, and task planning. Furthermore, we systematically examine how different VLM initializations affect supervised VLA fine-tuning, offering novel insights into mitigating the domain shift between internet-scale pre-training data and embodied-specific policy learning data. Based on these insights, our approach achieves state-of-the-art results on the WidowX benchmark and competitive performance on the Google Robot benchmark.
PDF182October 14, 2025