VLA-R1: 시각-언어-행동 모델의 추론 능력 향상
VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
October 2, 2025
저자: Angen Ye, Zeyu Zhang, Boyuan Wang, Xiaofeng Wang, Dapeng Zhang, Zheng Zhu
cs.AI
초록
비전-언어-행동(Vision-Language-Action, VLA) 모델은 지각, 언어 이해, 행동 생성을 통합하여 구체화된 AI에 광범위한 영향을 미치며 강력한 교차 작업 및 교차 장면 일반화를 제공하는 것을 목표로 합니다. 그러나 현재의 VLA 모델은 종종 명시적인 단계별 추론이 부족하며, 대신 affordance 제약이나 기하학적 관계를 고려하지 않고 최종 행동을 생성합니다. 또한, 사후 학습 파이프라인은 주로 약한 보상 설계를 기반으로 한 지도 미세 조정에 의존하며, 추론 품질을 강화하는 경우가 드뭅니다. 이러한 문제를 해결하기 위해, 우리는 검증 가능한 보상을 통한 강화 학습(Reinforcement Learning from Verifiable Rewards, RLVR)과 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 통합하여 추론과 실행을 체계적으로 최적화하는 추론 강화형 VLA인 VLA-R1을 제안합니다. 구체적으로, 우리는 영역 정렬, 궤적 일관성, 출력 형식화를 위한 검증 가능한 보상을 기반으로 한 RLVR 사후 학습 전략을 설계하여 추론의 견고성과 실행의 정확성을 강화합니다. 또한, 우리는 affordance 및 궤적 주석과 명시적으로 정렬된 사고의 연쇄(chain-of-thought) 감독을 제공하는 고품질 데이터셋인 VLA-CoT-13K를 개발했습니다. 더 나아가, 도메인 내, 도메인 외, 시뮬레이션 및 실제 로봇 플랫폼에서의 광범위한 평가를 통해 VLA-R1이 기존 VLA 방법들에 비해 우수한 일반화 및 실제 세계 성능을 달성함을 입증했습니다. 우리는 이 연구의 출판 후 모델, 코드, 데이터셋을 공개할 계획입니다. 코드: https://github.com/GigaAI-research/VLA-R1. 웹사이트: https://gigaai-research.github.io/VLA-R1.
English
Vision-Language-Action (VLA) models aim to unify perception, language
understanding, and action generation, offering strong cross-task and
cross-scene generalization with broad impact on embodied AI. However, current
VLA models often lack explicit step-by-step reasoning, instead emitting final
actions without considering affordance constraints or geometric relations.
Their post-training pipelines also rarely reinforce reasoning quality, relying
primarily on supervised fine-tuning with weak reward design. To address these
challenges, we present VLA-R1, a reasoning-enhanced VLA that integrates
Reinforcement Learning from Verifiable Rewards (RLVR) with Group Relative
Policy Optimization (GRPO) to systematically optimize both reasoning and
execution. Specifically, we design an RLVR-based post-training strategy with
verifiable rewards for region alignment, trajectory consistency, and output
formatting, thereby strengthening reasoning robustness and execution accuracy.
Moreover, we develop VLA-CoT-13K, a high-quality dataset that provides
chain-of-thought supervision explicitly aligned with affordance and trajectory
annotations. Furthermore, extensive evaluations on in-domain, out-of-domain,
simulation, and real-robot platforms demonstrate that VLA-R1 achieves superior
generalization and real-world performance compared to prior VLA methods. We
plan to release the model, code, and dataset following the publication of this
work. Code: https://github.com/GigaAI-research/VLA-R1. Website:
https://gigaai-research.github.io/VLA-R1.