RLinf-Co : Apprentissage par Renforcement pour l'Entraînement Conjoint Simulé-Réel des Modèles VLA
RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
February 13, 2026
papers.authors: Liangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI
papers.abstract
La simulation offre un moyen évolutif et peu coûteux d'enrichir l'entraînement vision-langage-action (VLA), réduisant la dépendance aux démonstrations onéreuses sur robots réels. Cependant, la plupart des méthodes de co-entraînement simulation-réel reposent sur du fine-tuning supervisé (SFT), qui traite la simulation comme une source statique de démonstrations et n'exploite pas l'interaction en boucle fermée à grande échelle. Par conséquent, les gains en conditions réelles et la généralisation sont souvent limités. Dans cet article, nous proposons un cadre de \textit{Co}-entraînement simulation-réel basé sur l'\textit{Apprentissage par Renforcement} (RL-Co) qui tire parti de la simulation interactive tout en préservant les capacités en monde réel. Notre méthode suit une conception générique en deux étapes : nous initialisons d'abord la politique par SFT sur un mélange de démonstrations réelles et simulées, puis nous l'affinons par apprentissage par renforcement en simulation tout en ajoutant une perte supervisée auxiliaire sur les données du monde réel pour ancrer la politique et atténuer l'oubli catastrophique. Nous évaluons notre cadre sur quatre tâches de manipulation réelles sur tabletop en utilisant deux architectures VLA représentatives, OpenVLA et π_{0.5}, et observons des améliorations constantes par rapport au fine-tuning uniquement sur données réelles et au co-entraînement basé sur SFT, incluant +24% de succès en réel pour OpenVLA et +20% pour π_{0.5}. Au-delà de taux de réussite plus élevés, le co-entraînement par RL produit une meilleure généralisation à des variations de tâches non vues et améliore substantiellement l'efficacité des données réelles, offrant une voie pratique et évolutive pour exploiter la simulation afin d'améliorer le déploiement des robots réels.
English
Simulation offers a scalable and low-cost way to enrich vision-language-action (VLA) training, reducing reliance on expensive real-robot demonstrations. However, most sim-real co-training methods rely on supervised fine-tuning (SFT), which treats simulation as a static source of demonstrations and does not exploit large-scale closed-loop interaction. Consequently, real-world gains and generalization are often limited. In this paper, we propose an \textit{RL}-based sim-real \textit{Co}-training (RL-Co) framework that leverages interactive simulation while preserving real-world capabilities. Our method follows a generic two-stage design: we first warm-start the policy with SFT on a mixture of real and simulated demonstrations, then fine-tune it with reinforcement learning in simulation while adding an auxiliary supervised loss on real-world data to anchor the policy and mitigate catastrophic forgetting. We evaluate our framework on four real-world tabletop manipulation tasks using two representative VLA architectures, OpenVLA and π_{0.5}, and observe consistent improvements over real-only fine-tuning and SFT-based co-training, including +24% real-world success on OpenVLA and +20% on π_{0.5}. Beyond higher success rates, RL co-training yields stronger generalization to unseen task variations and substantially improved real-world data efficiency, providing a practical and scalable pathway for leveraging simulation to enhance real-robot deployment.