로보얼라인: 비전-언어-행동 모델에서 언어-행동 정렬을 위한 테스트 타임 추론 학습
RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models
March 22, 2026
저자: Dongyoung Kim, Sumin Park, Woomin Song, Seungku Kim, Taeyoung Kim, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)의 구현적 추론 능력 향상은 다중 모드 이해를 저수준 동작으로 전환할 수 있는 시각-언어-행동 모델(VLA) 구축에 필수적입니다. 이에 최근 연구에서는 시각 질의응답 유형의 지도를 통해 MLLM의 구현적 추론을 강화하는 방법을 탐구해 왔습니다. 그러나 이러한 접근법은 VLA 성능을 불안정하게 만들어 종종 미미하거나 오히려 부정적인 성능 향상을 보이는 것으로 보고되었습니다. 본 논문에서는 VLA 성능을 안정적으로 향상시키는 체계적인 MLLM 학습 프레임워크인 RoboAlign을 제안합니다. 우리의 핵심 아이디어는 제로샷 자연어 추론을 통해 행동 토큰을 샘플링하고 강화 학습(RL)을 사용해 이 추론을 정제하여 행동 정확도를 높이는 것입니다. 그 결과 RoboAlign은 MLLM 내에서 언어와 저수준 행동 간의 모달리티 격차를 해소하고 MLLM에서 VLA로의 지식 전이를 촉진합니다. RoboAlign의 효과를 검증하기 위해 MLLM 백본 위에 확산 기반 행동 헤드를 추가하여 VLA를 학습시키고 주요 로봇 공학 벤치마크에서 평가했습니다. 주목할 점은 1% 미만의 데이터를 사용한 SFT 이후 RL 기반 정렬을 수행함으로써 RoboAlign이 LIBERO, CALVIN 및 실제 환경에서 SFT 기준 대비 각각 17.5%, 18.9%, 106.6%의 성능 향상을 달성했다는 것입니다.
English
Improving embodied reasoning in multimodal-large-language models (MLLMs) is essential for building vision-language-action models (VLAs) on top of them to readily translate multimodal understanding into low-level actions. Accordingly, recent work has explored enhancing embodied reasoning in MLLMs through supervision of vision-question-answering type. However, these approaches have been reported to result in unstable VLA performance, often yielding only marginal or even negative gains. In this paper, we propose a more systematic MLLM training framework RoboAlign that reliably improves VLA performance. Our key idea is to sample action tokens via zero-shot natural language reasoning and refines this reasoning using reinforcement learning (RL) to improve action accuracy. As a result, RoboAlign bridges the modality gap between language and low-level actions in MLLMs, and facilitate knowledge transfer from MLLM to VLA. To validate the effectiveness of RoboAlign, we train VLAs by adding a diffusion-based action head on top of an MLLM backbone and evaluate them on major robotics benchmarks. Remarkably, by performing RL-based alignment after SFT using less than 1\% of the data, RoboAlign achieves performance improvements of 17.5\%, 18.9\%, and 106.6\% over SFT baselines on LIBERO, CALVIN, and real-world environments, respectively.