RLinf-Co: Treinamento Cooperativo Sim-Real Baseado em Aprendizagem por Reforço para Modelos VLA

Resumo

A simulação oferece uma forma escalável e de baixo custo para enriquecer o treinamento visão-linguagem-ação (VLA), reduzindo a dependência de demonstrações caras com robôs reais. No entanto, a maioria dos métodos de co-treinamento sim-real baseia-se no ajuste fino supervisionado (SFT), que trata a simulação como uma fonte estática de demonstrações e não explora a interação em *loop fechado* em larga escala. Consequentemente, os ganhos no mundo real e a generalização são frequentemente limitados. Neste artigo, propomos uma estrutura de \textit{Co}-treinamento sim-real baseada em \textit{RL} (RL-Co) que aproveita a simulação interativa enquanto preserva as capacidades no mundo real. Nosso método segue um design genérico de dois estágios: primeiro, iniciamos o aquecimento da política com SFT em uma mistura de demonstrações reais e simuladas e, em seguida, ajustamos a política com aprendizado por reforço na simulação, adicionando uma perda supervisionada auxiliar sobre dados do mundo real para ancorar a política e mitigar o esquecimento catastrófico. Avaliamos nossa estrutura em quatro tarefas de manipulação em mesa do mundo real usando duas arquiteturas VLA representativas, OpenVLA e π_{0,5}, e observamos melhorias consistentes em relação ao ajuste fino apenas com dados reais e ao co-treinamento baseado em SFT, incluindo +24% de sucesso no mundo real com OpenVLA e +20% com π_{0,5}. Além de maiores taxas de sucesso, o co-treinamento com RL produz uma generalização mais forte para variações de tarefas não vistas e uma eficiência de dados do mundo real substancialmente melhorada, fornecendo um caminho prático e escalável para aproveitar a simulação e aprimorar a implantação de robôs reais.

English

Simulation offers a scalable and low-cost way to enrich vision-language-action (VLA) training, reducing reliance on expensive real-robot demonstrations. However, most sim-real co-training methods rely on supervised fine-tuning (SFT), which treats simulation as a static source of demonstrations and does not exploit large-scale closed-loop interaction. Consequently, real-world gains and generalization are often limited. In this paper, we propose an \textit{RL}-based sim-real \textit{Co}-training (RL-Co) framework that leverages interactive simulation while preserving real-world capabilities. Our method follows a generic two-stage design: we first warm-start the policy with SFT on a mixture of real and simulated demonstrations, then fine-tune it with reinforcement learning in simulation while adding an auxiliary supervised loss on real-world data to anchor the policy and mitigate catastrophic forgetting. We evaluate our framework on four real-world tabletop manipulation tasks using two representative VLA architectures, OpenVLA and π_{0.5}, and observe consistent improvements over real-only fine-tuning and SFT-based co-training, including +24% real-world success on OpenVLA and +20% on π_{0.5}. Beyond higher success rates, RL co-training yields stronger generalization to unseen task variations and substantially improved real-world data efficiency, providing a practical and scalable pathway for leveraging simulation to enhance real-robot deployment.

RLinf-Co: Treinamento Cooperativo Sim-Real Baseado em Aprendizagem por Reforço para Modelos VLA

RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Resumo

Support