RoboAlign: Apprendimento del Ragionamento al Momento del Test per l'Allineamento Linguaggio-Azione nei Modelli Visione-Linguaggio-Azione
RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models
March 22, 2026
Autori: Dongyoung Kim, Sumin Park, Woomin Song, Seungku Kim, Taeyoung Kim, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
Abstract
Migliorare il ragionamento embodied nei modelli linguistici multimodali di grandi dimensioni (MLLM) è essenziale per costruire modelli visione-linguaggio-azione (VLA) su di essi, al fine di tradurre prontamente la comprensione multimodale in azioni di basso livello. Di conseguenza, recenti lavori hanno esplorato il potenziamento del ragionamento embodied negli MLLM mediante supervisione di tipo vision-question-answering. Tuttavia, è stato riferito che questi approcci comportano prestazioni VLA instabili, spesso producendo solo miglioramenti marginali o addirittura negativi. In questo articolo, proponiamo un framework di training MLLM più sistematico, RoboAlign, che migliora in modo affidabile le prestazioni VLA. La nostra idea chiave è campionare token d'azione tramite ragionamento in linguaggio naturale zero-shot e affinare questo ragionamento utilizzando l'apprendimento per rinforzo (RL) per migliorare l'accuratezza delle azioni. Di conseguenza, RoboAlign colma il divario di modalità tra linguaggio e azioni di basso livello negli MLLM e facilita il trasferimento di conoscenza dall'MLLM al VLA. Per validare l'efficacia di RoboAlign, addestriamo VLA aggiungendo una testa d'azione basata su diffusion su un backbone MLLM e li valutiamo su principali benchmark di robotica. Notevolmente, eseguendo l'allineamento basato su RL dopo SFT utilizzando meno dell'1% dei dati, RoboAlign raggiunge miglioramenti prestazionali del 17,5%, 18,9% e 106,6% rispetto ai baseline SFT rispettivamente su ambienti LIBERO, CALVIN e del mondo reale.
English
Improving embodied reasoning in multimodal-large-language models (MLLMs) is essential for building vision-language-action models (VLAs) on top of them to readily translate multimodal understanding into low-level actions. Accordingly, recent work has explored enhancing embodied reasoning in MLLMs through supervision of vision-question-answering type. However, these approaches have been reported to result in unstable VLA performance, often yielding only marginal or even negative gains. In this paper, we propose a more systematic MLLM training framework RoboAlign that reliably improves VLA performance. Our key idea is to sample action tokens via zero-shot natural language reasoning and refines this reasoning using reinforcement learning (RL) to improve action accuracy. As a result, RoboAlign bridges the modality gap between language and low-level actions in MLLMs, and facilitate knowledge transfer from MLLM to VLA. To validate the effectiveness of RoboAlign, we train VLAs by adding a diffusion-based action head on top of an MLLM backbone and evaluate them on major robotics benchmarks. Remarkably, by performing RL-based alignment after SFT using less than 1\% of the data, RoboAlign achieves performance improvements of 17.5\%, 18.9\%, and 106.6\% over SFT baselines on LIBERO, CALVIN, and real-world environments, respectively.