RoboAlign: Test-Time Redeneren Aanleren voor Taal-Actie-Afstemming in Visie-Taal-Actie-Modellen
RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models
March 22, 2026
Auteurs: Dongyoung Kim, Sumin Park, Woomin Song, Seungku Kim, Taeyoung Kim, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
Samenvatting
Het verbeteren van embodied reasoning (belichaamde redeneervaardigheid) in multimodale grote taalmodellen (MLLM's) is essentieel voor de ontwikkeling van vision-language-action-modellen (VLA's) die hierop voortbouwen, om multimodaal begrip direct te kunnen vertalen naar low-level acties. Recent onderzoek heeft daarom geprobeerd de embodied reasoning in MLLM's te verbeteren door middel van supervisie van het vision-question-answering-type. Uit deze benaderingen is echter gebleken dat ze leiden tot een instabiele VLA-prestatie, waarbij vaak slechts marginale of zelfs negatieve verbeteringen worden behaald. In dit artikel stellen we een meer systematisch MLLM-trainingskader voor, RoboAlign genaamd, dat de VLA-prestatie betrouwbaar verbetert. Onze kernidee is om actietokens te bemonsteren via zero-shot redeneren in natuurlijke taal en deze redeneervaardigheid te verfijnen met reinforcement learning (RL) om de actienauwkeurigheid te verbeteren. Hierdoor overbrugt RoboAlign de modaliteitskloof tussen taal en low-level acties in MLLM's en vergemakkelijkt het de kennisoverdracht van MLLM naar VLA. Om de effectiviteit van RoboAlign te valideren, trainen we VLA's door een op diffusie gebaseerde actie-head toe te voegen aan een MLLM-backbone en evalueren we deze op belangrijke roboticabenchmarks. Opmerkelijk is dat RoboAlign, door RL-gebaseerde alignment uit te voeren na SFT met minder dan 1% van de data, prestatieverbeteringen behaalt van respectievelijk 17,5%, 18,9% en 106,6% ten opzichte van SFT-baselines op LIBERO, CALVIN en real-world omgevingen.
English
Improving embodied reasoning in multimodal-large-language models (MLLMs) is essential for building vision-language-action models (VLAs) on top of them to readily translate multimodal understanding into low-level actions. Accordingly, recent work has explored enhancing embodied reasoning in MLLMs through supervision of vision-question-answering type. However, these approaches have been reported to result in unstable VLA performance, often yielding only marginal or even negative gains. In this paper, we propose a more systematic MLLM training framework RoboAlign that reliably improves VLA performance. Our key idea is to sample action tokens via zero-shot natural language reasoning and refines this reasoning using reinforcement learning (RL) to improve action accuracy. As a result, RoboAlign bridges the modality gap between language and low-level actions in MLLMs, and facilitate knowledge transfer from MLLM to VLA. To validate the effectiveness of RoboAlign, we train VLAs by adding a diffusion-based action head on top of an MLLM backbone and evaluate them on major robotics benchmarks. Remarkably, by performing RL-based alignment after SFT using less than 1\% of the data, RoboAlign achieves performance improvements of 17.5\%, 18.9\%, and 106.6\% over SFT baselines on LIBERO, CALVIN, and real-world environments, respectively.