RoboAlign: Test-Time Redeneren Aanleren voor Taal-Actie-Afstemming in Visie-Taal-Actie-Modellen

Samenvatting

Het verbeteren van embodied reasoning (belichaamde redeneervaardigheid) in multimodale grote taalmodellen (MLLM's) is essentieel voor de ontwikkeling van vision-language-action-modellen (VLA's) die hierop voortbouwen, om multimodaal begrip direct te kunnen vertalen naar low-level acties. Recent onderzoek heeft daarom geprobeerd de embodied reasoning in MLLM's te verbeteren door middel van supervisie van het vision-question-answering-type. Uit deze benaderingen is echter gebleken dat ze leiden tot een instabiele VLA-prestatie, waarbij vaak slechts marginale of zelfs negatieve verbeteringen worden behaald. In dit artikel stellen we een meer systematisch MLLM-trainingskader voor, RoboAlign genaamd, dat de VLA-prestatie betrouwbaar verbetert. Onze kernidee is om actietokens te bemonsteren via zero-shot redeneren in natuurlijke taal en deze redeneervaardigheid te verfijnen met reinforcement learning (RL) om de actienauwkeurigheid te verbeteren. Hierdoor overbrugt RoboAlign de modaliteitskloof tussen taal en low-level acties in MLLM's en vergemakkelijkt het de kennisoverdracht van MLLM naar VLA. Om de effectiviteit van RoboAlign te valideren, trainen we VLA's door een op diffusie gebaseerde actie-head toe te voegen aan een MLLM-backbone en evalueren we deze op belangrijke roboticabenchmarks. Opmerkelijk is dat RoboAlign, door RL-gebaseerde alignment uit te voeren na SFT met minder dan 1% van de data, prestatieverbeteringen behaalt van respectievelijk 17,5%, 18,9% en 106,6% ten opzichte van SFT-baselines op LIBERO, CALVIN en real-world omgevingen.

English

Improving embodied reasoning in multimodal-large-language models (MLLMs) is essential for building vision-language-action models (VLAs) on top of them to readily translate multimodal understanding into low-level actions. Accordingly, recent work has explored enhancing embodied reasoning in MLLMs through supervision of vision-question-answering type. However, these approaches have been reported to result in unstable VLA performance, often yielding only marginal or even negative gains. In this paper, we propose a more systematic MLLM training framework RoboAlign that reliably improves VLA performance. Our key idea is to sample action tokens via zero-shot natural language reasoning and refines this reasoning using reinforcement learning (RL) to improve action accuracy. As a result, RoboAlign bridges the modality gap between language and low-level actions in MLLMs, and facilitate knowledge transfer from MLLM to VLA. To validate the effectiveness of RoboAlign, we train VLAs by adding a diffusion-based action head on top of an MLLM backbone and evaluate them on major robotics benchmarks. Remarkably, by performing RL-based alignment after SFT using less than 1\% of the data, RoboAlign achieves performance improvements of 17.5\%, 18.9\%, and 106.6\% over SFT baselines on LIBERO, CALVIN, and real-world environments, respectively.

RoboAlign: Test-Time Redeneren Aanleren voor Taal-Actie-Afstemming in Visie-Taal-Actie-Modellen

RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

Samenvatting

Support