RLinf-Co: Addestramento Cooperativo Simulazione-Realtà Basato su Apprendimento per Rinforzo per Modelli VLA

Abstract

La simulazione offre un metodo scalabile e a basso costo per arricchire l'addestramento visione-linguaggio-azione (VLA), riducendo la dipendenza da costose dimostrazioni con robot reali. Tuttavia, la maggior parte dei metodi di co-addestramento sim-reale si basa sulla messa a punto supervisionata (SFT), che tratta la simulazione come una fonte statica di dimostrazioni e non sfrutta l'interazione a ciclo chiuso su larga scala. Di conseguenza, i miglioramenti nel mondo reale e la generalizzazione sono spesso limitati. In questo articolo, proponiamo un framework di \textit{Co}-addestramento sim-reale basato su \textit{RL} (RL-Co) che sfrutta la simulazione interattiva preservando al contempo le capacità nel mondo reale. Il nostro metodo segue una progettazione generica in due fasi: innanzitutto avviamo la politica con SFT su un mix di dimostrazioni reali e simulate, per poi metterla a punto con l'apprendimento per rinforzo in simulazione, aggiungendo una perdita supervisionata ausiliaria sui dati del mondo reale per ancorare la politica e mitigare l'oblio catastrofico. Valutiamo il nostro framework su quattro compiti di manipolazione su tavolo nel mondo reale utilizzando due architetture VLA rappresentative, OpenVLA e π_{0.5}, e osserviamo miglioramenti consistenti rispetto alla messa a punto esclusivamente su dati reali e al co-addestramento basato su SFT, inclusi un +24% di successo nel mondo reale per OpenVLA e un +20% per π_{0.5}. Oltre a tassi di successo più elevati, il co-addestramento con RL produce una generalizzazione più robusta a variazioni non viste del compito e un'efficienza dei dati del mondo reale notevolmente migliorata, fornendo un percorso pratico e scalabile per sfruttare la simulazione per potenziare l'implementazione di robot reali.

English

Simulation offers a scalable and low-cost way to enrich vision-language-action (VLA) training, reducing reliance on expensive real-robot demonstrations. However, most sim-real co-training methods rely on supervised fine-tuning (SFT), which treats simulation as a static source of demonstrations and does not exploit large-scale closed-loop interaction. Consequently, real-world gains and generalization are often limited. In this paper, we propose an \textit{RL}-based sim-real \textit{Co}-training (RL-Co) framework that leverages interactive simulation while preserving real-world capabilities. Our method follows a generic two-stage design: we first warm-start the policy with SFT on a mixture of real and simulated demonstrations, then fine-tune it with reinforcement learning in simulation while adding an auxiliary supervised loss on real-world data to anchor the policy and mitigate catastrophic forgetting. We evaluate our framework on four real-world tabletop manipulation tasks using two representative VLA architectures, OpenVLA and π_{0.5}, and observe consistent improvements over real-only fine-tuning and SFT-based co-training, including +24% real-world success on OpenVLA and +20% on π_{0.5}. Beyond higher success rates, RL co-training yields stronger generalization to unseen task variations and substantially improved real-world data efficiency, providing a practical and scalable pathway for leveraging simulation to enhance real-robot deployment.

RLinf-Co: Addestramento Cooperativo Simulazione-Realtà Basato su Apprendimento per Rinforzo per Modelli VLA

RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Abstract

Support