ChatPaper.aiChatPaper

RoboAlign: Обучение рассуждению во время тестирования для согласования языка и действий в моделях "зрение-язык-действие"

RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

March 22, 2026
Авторы: Dongyoung Kim, Sumin Park, Woomin Song, Seungku Kim, Taeyoung Kim, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI

Аннотация

Повышение качества воплощенного мышления в мультимодальных больших языковых моделях (МБЯМ) является ключевым для построения на их основе моделей «зрение-язык-действие» (VLA), способных эффективно трансформировать мультимодальное понимание в низкоуровневые действия. В связи с этим в последних работах исследуется улучшение воплощенного мышления в МБЯМ с помощью обучения на данных типа «визуальный вопрос-ответ». Однако сообщается, что такие подходы приводят к нестабильной работе VLA, часто давая лишь незначительный или даже отрицательный прирост производительности. В данной статье мы предлагаем более систематическую框架 обучения МБЯМ под названием RoboAlign, которая надежно повышает производительность VLA. Наша ключевая идея заключается в сэмплировании токенов действий с помощью zero-shot рассуждений на естественном языке и последующем улучшении этих рассуждений с использованием обучения с подкреплением (RL) для повышения точности действий. В результате RoboAlign преодолевает модальный разрыв между языком и низкоуровневыми действиями в МБЯМ и способствует передаче знаний от МБЯМ к VLA. Для проверки эффективности RoboAlign мы обучаем модели VLA, добавляя диффузионный головной модуль действий к базовой МБЯМ, и оцениваем их на основных робототехнических бенчмарках. Примечательно, что выполняя RL-выравнивание после SFT с использованием менее 1% данных, RoboAlign достигает улучшения производительности на 17,5%, 18,9% и 106,6% по сравнению с SFT-базисами на средах LIBERO, CALVIN и в реальном мире соответственно.
English
Improving embodied reasoning in multimodal-large-language models (MLLMs) is essential for building vision-language-action models (VLAs) on top of them to readily translate multimodal understanding into low-level actions. Accordingly, recent work has explored enhancing embodied reasoning in MLLMs through supervision of vision-question-answering type. However, these approaches have been reported to result in unstable VLA performance, often yielding only marginal or even negative gains. In this paper, we propose a more systematic MLLM training framework RoboAlign that reliably improves VLA performance. Our key idea is to sample action tokens via zero-shot natural language reasoning and refines this reasoning using reinforcement learning (RL) to improve action accuracy. As a result, RoboAlign bridges the modality gap between language and low-level actions in MLLMs, and facilitate knowledge transfer from MLLM to VLA. To validate the effectiveness of RoboAlign, we train VLAs by adding a diffusion-based action head on top of an MLLM backbone and evaluate them on major robotics benchmarks. Remarkably, by performing RL-based alignment after SFT using less than 1\% of the data, RoboAlign achieves performance improvements of 17.5\%, 18.9\%, and 106.6\% over SFT baselines on LIBERO, CALVIN, and real-world environments, respectively.
PDF222March 25, 2026