RoboAlign: Aprendendo Raciocínio em Tempo de Teste para Alinhamento Linguagem-Ação em Modelos Visão-Linguagem-Ação
RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models
March 22, 2026
Autores: Dongyoung Kim, Sumin Park, Woomin Song, Seungku Kim, Taeyoung Kim, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
Resumo
A melhoria do raciocínio incorporado em modelos multimodais de grande linguagem (MLLMs) é essencial para a construção de modelos visão-linguagem-ação (VLAs) sobre eles, permitindo traduzir prontamente a compreensão multimodal em ações de baixo nível. Consequentemente, trabalhos recentes exploraram o aprimoramento do raciocínio incorporado em MLLMs por meio de supervisão do tipo resposta a perguntas visuais. No entanto, essas abordagens têm sido relatadas como resultantes em desempenho instável de VLA, frequentemente produzindo ganhos apenas marginais ou mesmo negativos. Neste artigo, propomos um framework de treinamento de MLLM mais sistemático, o RoboAlign, que melhora de forma confiável o desempenho do VLA. Nossa ideia principal é amostrar tokens de ação via raciocínio de linguagem natural de disparo zero e refinar esse raciocínio usando aprendizado por reforço (RL) para melhorar a precisão da ação. Como resultado, o RoboAlign preenche a lacuna de modalidade entre linguagem e ações de baixo nível em MLLMs e facilita a transferência de conhecimento do MLLM para o VLA. Para validar a eficácia do RoboAlign, treinamos VLAs adicionando um cabeçalho de ação baseado em difusão sobre uma espinha dorsal de MLLM e os avaliamos em principais benchmarks de robótica. Notavelmente, ao realizar o alinhamento baseado em RL após o SFT usando menos de 1% dos dados, o RoboAlign alcança melhorias de desempenho de 17,5%, 18,9% e 106,6% sobre as linhas de base de SFT nos ambientes LIBERO, CALVIN e do mundo real, respectivamente.
English
Improving embodied reasoning in multimodal-large-language models (MLLMs) is essential for building vision-language-action models (VLAs) on top of them to readily translate multimodal understanding into low-level actions. Accordingly, recent work has explored enhancing embodied reasoning in MLLMs through supervision of vision-question-answering type. However, these approaches have been reported to result in unstable VLA performance, often yielding only marginal or even negative gains. In this paper, we propose a more systematic MLLM training framework RoboAlign that reliably improves VLA performance. Our key idea is to sample action tokens via zero-shot natural language reasoning and refines this reasoning using reinforcement learning (RL) to improve action accuracy. As a result, RoboAlign bridges the modality gap between language and low-level actions in MLLMs, and facilitate knowledge transfer from MLLM to VLA. To validate the effectiveness of RoboAlign, we train VLAs by adding a diffusion-based action head on top of an MLLM backbone and evaluate them on major robotics benchmarks. Remarkably, by performing RL-based alignment after SFT using less than 1\% of the data, RoboAlign achieves performance improvements of 17.5\%, 18.9\%, and 106.6\% over SFT baselines on LIBERO, CALVIN, and real-world environments, respectively.