ChatPaper.aiChatPaper

SimpleVLA-RL: 강화 학습을 통한 VLA 훈련의 확장

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

September 11, 2025
저자: Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding
cs.AI

초록

Vision-Language-Action (VLA) 모델은 최근 로봇 매니퓰레이션을 위한 강력한 패러다임으로 부상하고 있습니다. 대규모 사전 학습과 지도 미세 조정(SFT)을 통해 상당한 진전이 이루어졌음에도 불구하고, 이러한 모델은 두 가지 근본적인 문제에 직면해 있습니다: (i) SFT 확장을 위해 필요한 대규모 인간 운영 로봇 궤적 데이터의 부족과 높은 비용, 그리고 (ii) 분포 변화를 포함하는 작업에 대한 제한된 일반화 능력입니다. 최근 Large Reasoning Models (LRMs)의 혁신적인 발전은 강화 학습(RL)이 단계별 추론 능력을 극적으로 향상시킬 수 있음을 보여주며, 자연스럽게 다음과 같은 질문을 제기합니다: RL이 VLA의 장기적인 단계별 행동 계획도 마찬가지로 개선할 수 있을까요? 본 연구에서는 VLA 모델에 맞춤화된 효율적인 RL 프레임워크인 SimpleVLA-RL을 소개합니다. veRL을 기반으로, VLA 특화 궤적 샘플링, 확장 가능한 병렬화, 다중 환경 렌더링, 그리고 최적화된 손실 계산을 도입했습니다. OpenVLA-OFT에 적용했을 때, SimpleVLA-RL은 LIBERO에서 SoTA 성능을 달성했으며, 우리가 제안한 탐색 강화 전략을 통해 RoboTwin 1.0\&2.0에서도 pi_0을 능가했습니다. SimpleVLA-RL은 대규모 데이터에 대한 의존도를 줄이고 견고한 일반화를 가능하게 할 뿐만 아니라, 실제 작업에서 SFT를 뛰어넘는 성과를 보여줍니다. 또한, RL 훈련 중에 "pushcut"이라는 새로운 현상을 발견했는데, 이는 정책이 이전 훈련 과정에서 보지 못한 패턴을 발견하는 현상입니다. Github: https://github.com/PRIME-RL/SimpleVLA-RL
English
Vision-Language-Action (VLA) models have recently emerged as a powerful paradigm for robotic manipulation. Despite substantial progress enabled by large-scale pretraining and supervised fine-tuning (SFT), these models face two fundamental challenges: (i) the scarcity and high cost of large-scale human-operated robotic trajectories required for SFT scaling, and (ii) limited generalization to tasks involving distribution shift. Recent breakthroughs in Large Reasoning Models (LRMs) demonstrate that reinforcement learning (RL) can dramatically enhance step-by-step reasoning capabilities, raising a natural question: Can RL similarly improve the long-horizon step-by-step action planning of VLA? In this work, we introduce SimpleVLA-RL, an efficient RL framework tailored for VLA models. Building upon veRL, we introduce VLA-specific trajectory sampling, scalable parallelization, multi-environment rendering, and optimized loss computation. When applied to OpenVLA-OFT, SimpleVLA-RL achieves SoTA performance on LIBERO and even outperforms pi_0 on RoboTwin 1.0\&2.0 with the exploration-enhancing strategies we introduce. SimpleVLA-RL not only reduces dependence on large-scale data and enables robust generalization, but also remarkably surpasses SFT in real-world tasks. Moreover, we identify a novel phenomenon ``pushcut'' during RL training, wherein the policy discovers previously unseen patterns beyond those seen in the previous training process. Github: https://github.com/PRIME-RL/SimpleVLA-RL
PDF572September 12, 2025