RoboAlign: Erlernen von Test-Zeit-Argumentation für Sprach-Aktions-Abgleich in Vision-Sprache-Aktions-Modellen

Zusammenfassung

Die Verbesserung des verkörperten Denkens in multimodalen Großsprachmodellen (MLLMs) ist entscheidend, um darauf aufbauend Vision-Sprache-Handlungs-Modelle (VLAs) zu entwickeln, die multimodales Verständnis direkt in niedrigstufige Aktionen übersetzen können. Dementsprechend hat die jüngste Forschung versucht, das verkörperte Denken in MLLMs durch Supervision vom Typ Vision-Frage-Antwort zu verbessern. Diese Ansätze führten jedoch nach Berichten zu instabilen VLA-Leistungen, oft mit nur marginalen oder sogar negativen Verbesserungen. In diesem Artikel schlagen wir mit RoboAlign einen systematischeren Trainingsrahmen für MLLMs vor, der die VLA-Leistung zuverlässig steigert. Unser Kernansatz besteht darin, Aktionstokens durch Zero-Shot-Schlussfolgerungen in natürlicher Sprache zu samplen und diese Schlussfolgerungen mit Reinforcement Learning (RL) zu verfeinern, um die Handlungsgenauigkeit zu erhöhen. Dadurch überbrückt RoboAlign die Modalitätslücke zwischen Sprache und niedrigstufigen Aktionen in MLLMs und erleichtert den Wissenstransfer vom MLLM zum VLA. Um die Wirksamkeit von RoboAlign zu validieren, trainieren wir VLAs, indem wir einen diffusionsbasierten Aktionskopf auf ein MLLM-Backbone aufsetzen, und evaluieren sie auf wichtigen Robotik-Benchmarks. Bemerkenswerterweise erzielt RoboAlign durch RL-basiertes Alignment nach SFT mit weniger als 1 % der Daten Leistungssteigerungen von 17,5 %, 18,9 % bzw. 106,6 % gegenüber SFT-Baselines in LIBERO, CALVIN und realen Umgebungen.

English

Improving embodied reasoning in multimodal-large-language models (MLLMs) is essential for building vision-language-action models (VLAs) on top of them to readily translate multimodal understanding into low-level actions. Accordingly, recent work has explored enhancing embodied reasoning in MLLMs through supervision of vision-question-answering type. However, these approaches have been reported to result in unstable VLA performance, often yielding only marginal or even negative gains. In this paper, we propose a more systematic MLLM training framework RoboAlign that reliably improves VLA performance. Our key idea is to sample action tokens via zero-shot natural language reasoning and refines this reasoning using reinforcement learning (RL) to improve action accuracy. As a result, RoboAlign bridges the modality gap between language and low-level actions in MLLMs, and facilitate knowledge transfer from MLLM to VLA. To validate the effectiveness of RoboAlign, we train VLAs by adding a diffusion-based action head on top of an MLLM backbone and evaluate them on major robotics benchmarks. Remarkably, by performing RL-based alignment after SFT using less than 1\% of the data, RoboAlign achieves performance improvements of 17.5\%, 18.9\%, and 106.6\% over SFT baselines on LIBERO, CALVIN, and real-world environments, respectively.

RoboAlign: Erlernen von Test-Zeit-Argumentation für Sprach-Aktions-Abgleich in Vision-Sprache-Aktions-Modellen

RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

Zusammenfassung

Support