SimpleVLA-RL: Escalonando o Treinamento de VLA por meio de Aprendizado por Reforço
SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
September 11, 2025
Autores: Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding
cs.AI
Resumo
Modelos Visão-Linguagem-Ação (VLA) surgiram recentemente como um paradigma poderoso para manipulação robótica. Apesar do progresso substancial possibilitado pelo pré-treinamento em larga escala e ajuste fino supervisionado (SFT), esses modelos enfrentam dois desafios fundamentais: (i) a escassez e o alto custo de trajetórias robóticas operadas por humanos em grande escala necessárias para a escalabilidade do SFT, e (ii) a generalização limitada para tarefas que envolvem mudanças de distribuição. Avanços recentes em Modelos de Raciocínio em Larga Escala (LRMs) demonstram que o aprendizado por reforço (RL) pode aprimorar dramaticamente as capacidades de raciocínio passo a passo, levantando uma questão natural: O RL pode, de forma similar, melhorar o planejamento de ações passo a passo de longo prazo dos modelos VLA? Neste trabalho, introduzimos o SimpleVLA-RL, um framework de RL eficiente projetado para modelos VLA. Baseando-se no veRL, introduzimos amostragem de trajetórias específica para VLA, paralelização escalável, renderização multi-ambiente e computação de perda otimizada. Quando aplicado ao OpenVLA-OFT, o SimpleVLA-RL alcança desempenho de ponta no LIBERO e até supera o pi_0 no RoboTwin 1.0\&2.0 com as estratégias de aprimoramento de exploração que introduzimos. O SimpleVLA-RL não apenas reduz a dependência de dados em larga escala e permite generalização robusta, mas também supera notavelmente o SFT em tarefas do mundo real. Além disso, identificamos um novo fenômeno chamado "pushcut" durante o treinamento de RL, no qual a política descobre padrões anteriormente não vistos, além daqueles observados no processo de treinamento anterior. Github: https://github.com/PRIME-RL/SimpleVLA-RL
English
Vision-Language-Action (VLA) models have recently emerged as a powerful
paradigm for robotic manipulation. Despite substantial progress enabled by
large-scale pretraining and supervised fine-tuning (SFT), these models face two
fundamental challenges: (i) the scarcity and high cost of large-scale
human-operated robotic trajectories required for SFT scaling, and (ii) limited
generalization to tasks involving distribution shift. Recent breakthroughs in
Large Reasoning Models (LRMs) demonstrate that reinforcement learning (RL) can
dramatically enhance step-by-step reasoning capabilities, raising a natural
question: Can RL similarly improve the long-horizon step-by-step action
planning of VLA? In this work, we introduce SimpleVLA-RL, an efficient RL
framework tailored for VLA models. Building upon veRL, we introduce
VLA-specific trajectory sampling, scalable parallelization, multi-environment
rendering, and optimized loss computation. When applied to OpenVLA-OFT,
SimpleVLA-RL achieves SoTA performance on LIBERO and even outperforms pi_0
on RoboTwin 1.0\&2.0 with the exploration-enhancing strategies we introduce.
SimpleVLA-RL not only reduces dependence on large-scale data and enables robust
generalization, but also remarkably surpasses SFT in real-world tasks.
Moreover, we identify a novel phenomenon ``pushcut'' during RL training,
wherein the policy discovers previously unseen patterns beyond those seen in
the previous training process. Github: https://github.com/PRIME-RL/SimpleVLA-RL