RLinf-Co: Reinforcement Learning-gebaseerde Sim-Real Co-Training voor VLA-modellen
RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
February 13, 2026
Auteurs: Liangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI
Samenvatting
Simulatie biedt een schaalbare en kostenefficiënte manier om vision-language-action (VLA)-training te verrijken, waardoor de afhankelijkheid van dure real-robotdemonstraties wordt verminderd. De meeste sim-real co-trainingsmethoden vertrouwen echter op supervised fine-tuning (SFT), die simulatie behandelt als een statische bron van demonstraties en geen gebruik maakt van grootschalige gesloten-lus interactie. Hierdoor zijn de verbeteringen in de echte wereld en de generalisatie vaak beperkt. In dit artikel stellen we een *RL*-gebaseerd sim-real *Co*-trainings (RL-Co) raamwerk voor dat interactieve simulatie benut terwijl het real-world capaciteiten behoudt. Onze methode volgt een generiek tweefasenontwerp: we starten eerst het beleid warm met SFT op een mix van echte en gesimuleerde demonstraties, vervolgens finetunen we het met reinforcement learning in simulatie terwijl we een auxiliary supervised loss toevoegen op real-world data om het beleid te verankeren en catastrofale vergetelheid te beperken. We evalueren ons raamwerk op vier real-world tafelmanipulatietaken met twee representatieve VLA-architecturen, OpenVLA en π_{0.5}, en observeren consistente verbeteringen ten opzichte van real-only finetuning en SFT-gebaseerde co-training, waaronder +24% real-world succes voor OpenVLA en +20% voor π_{0.5}. Naast hogere slagingspercentages levert RL co-training sterkere generalisatie naar onzichtbare taakvariaties en een aanzienlijk verbeterde real-world data-efficiëntie op, wat een praktische en schaalbare route biedt om simulatie te benutten voor het verbeteren van real-robot implementatie.
English
Simulation offers a scalable and low-cost way to enrich vision-language-action (VLA) training, reducing reliance on expensive real-robot demonstrations. However, most sim-real co-training methods rely on supervised fine-tuning (SFT), which treats simulation as a static source of demonstrations and does not exploit large-scale closed-loop interaction. Consequently, real-world gains and generalization are often limited. In this paper, we propose an \textit{RL}-based sim-real \textit{Co}-training (RL-Co) framework that leverages interactive simulation while preserving real-world capabilities. Our method follows a generic two-stage design: we first warm-start the policy with SFT on a mixture of real and simulated demonstrations, then fine-tune it with reinforcement learning in simulation while adding an auxiliary supervised loss on real-world data to anchor the policy and mitigate catastrophic forgetting. We evaluate our framework on four real-world tabletop manipulation tasks using two representative VLA architectures, OpenVLA and π_{0.5}, and observe consistent improvements over real-only fine-tuning and SFT-based co-training, including +24% real-world success on OpenVLA and +20% on π_{0.5}. Beyond higher success rates, RL co-training yields stronger generalization to unseen task variations and substantially improved real-world data efficiency, providing a practical and scalable pathway for leveraging simulation to enhance real-robot deployment.