SimpleVLA-RL: Escalonando o Treinamento de VLA por meio de Aprendizado por Reforço

Resumo

Modelos Visão-Linguagem-Ação (VLA) surgiram recentemente como um paradigma poderoso para manipulação robótica. Apesar do progresso substancial possibilitado pelo pré-treinamento em larga escala e ajuste fino supervisionado (SFT), esses modelos enfrentam dois desafios fundamentais: (i) a escassez e o alto custo de trajetórias robóticas operadas por humanos em grande escala necessárias para a escalabilidade do SFT, e (ii) a generalização limitada para tarefas que envolvem mudanças de distribuição. Avanços recentes em Modelos de Raciocínio em Larga Escala (LRMs) demonstram que o aprendizado por reforço (RL) pode aprimorar dramaticamente as capacidades de raciocínio passo a passo, levantando uma questão natural: O RL pode, de forma similar, melhorar o planejamento de ações passo a passo de longo prazo dos modelos VLA? Neste trabalho, introduzimos o SimpleVLA-RL, um framework de RL eficiente projetado para modelos VLA. Baseando-se no veRL, introduzimos amostragem de trajetórias específica para VLA, paralelização escalável, renderização multi-ambiente e computação de perda otimizada. Quando aplicado ao OpenVLA-OFT, o SimpleVLA-RL alcança desempenho de ponta no LIBERO e até supera o pi_0 no RoboTwin 1.0\&2.0 com as estratégias de aprimoramento de exploração que introduzimos. O SimpleVLA-RL não apenas reduz a dependência de dados em larga escala e permite generalização robusta, mas também supera notavelmente o SFT em tarefas do mundo real. Além disso, identificamos um novo fenômeno chamado "pushcut" durante o treinamento de RL, no qual a política descobre padrões anteriormente não vistos, além daqueles observados no processo de treinamento anterior. Github: https://github.com/PRIME-RL/SimpleVLA-RL

English

Vision-Language-Action (VLA) models have recently emerged as a powerful paradigm for robotic manipulation. Despite substantial progress enabled by large-scale pretraining and supervised fine-tuning (SFT), these models face two fundamental challenges: (i) the scarcity and high cost of large-scale human-operated robotic trajectories required for SFT scaling, and (ii) limited generalization to tasks involving distribution shift. Recent breakthroughs in Large Reasoning Models (LRMs) demonstrate that reinforcement learning (RL) can dramatically enhance step-by-step reasoning capabilities, raising a natural question: Can RL similarly improve the long-horizon step-by-step action planning of VLA? In this work, we introduce SimpleVLA-RL, an efficient RL framework tailored for VLA models. Building upon veRL, we introduce VLA-specific trajectory sampling, scalable parallelization, multi-environment rendering, and optimized loss computation. When applied to OpenVLA-OFT, SimpleVLA-RL achieves SoTA performance on LIBERO and even outperforms pi_0 on RoboTwin 1.0\&2.0 with the exploration-enhancing strategies we introduce. SimpleVLA-RL not only reduces dependence on large-scale data and enables robust generalization, but also remarkably surpasses SFT in real-world tasks. Moreover, we identify a novel phenomenon ``pushcut'' during RL training, wherein the policy discovers previously unseen patterns beyond those seen in the previous training process. Github: https://github.com/PRIME-RL/SimpleVLA-RL

SimpleVLA-RL: Escalonando o Treinamento de VLA por meio de Aprendizado por Reforço

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

Resumo

Support