RLinf-Co: Reinforcement Learning-basiertes Sim-Real-Co-Training für VLA-Modelle
RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
February 13, 2026
papers.authors: Liangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI
papers.abstract
Simulation bietet eine skalierbare und kostengünstige Möglichkeit, das Training von Vision-Language-Action (VLA)-Modellen zu bereichern und die Abhängigkeit von teuren Real-Roboter-Demonstrationen zu verringern. Die meisten Sim-Real-Co-Training-Methoden stützen sich jedoch auf überwachtes Feinjustieren (SFT), das die Simulation als statische Quelle für Demonstrationen behandelt und keine groß angelegten geschlossenen Interaktionsschleifen nutzt. Folglich sind die Verbesserungen in der realen Welt und die Generalisierungsfähigkeit oft begrenzt. In diesem Artikel schlagen wir einen RL-basierten Sim-Real-Co-Training (RL-Co)-Rahmen vor, der die interaktive Simulation nutzt, während die Fähigkeiten in der realen Welt erhalten bleiben. Unser Ansatz folgt einem generischen Zwei-Stufen-Design: Zuerst initialisieren wir die Policy durch SFT mit einer Mischung aus realen und simulierten Demonstrationen. Anschließend feinjustieren wir sie mittels Reinforcement Learning in der Simulation, wobei wir einen zusätzlichen überwachten Verlust auf Realweltdaten hinzufügen, um die Policy zu stabilisieren und katastrophales Vergessen zu mildern. Wir evaluieren unseren Rahmen an vier realen Tisch-Manipulationsaufgaben mit zwei repräsentativen VLA-Architekturen, OpenVLA und π_{0.5}, und beobachten konsistente Verbesserungen gegenüber Feinjustieren nur mit Realweltdaten und SFT-basiertem Co-Training, einschließlich einer Steigerung des Realwelterfolgs um +24 % bei OpenVLA und +20 % bei π_{0.5}. Über höhere Erfolgsquoten hinaus führt RL-Co-Training zu einer besseren Generalisierung bei ungesehenen Aufgabenvariationen und einer deutlich verbesserten Dateneffizienz in der realen Welt. Dies bietet einen praktischen und skalierbaren Weg, Simulation zu nutzen, um den Einsatz von Real-Robotern zu verbessern.
English
Simulation offers a scalable and low-cost way to enrich vision-language-action (VLA) training, reducing reliance on expensive real-robot demonstrations. However, most sim-real co-training methods rely on supervised fine-tuning (SFT), which treats simulation as a static source of demonstrations and does not exploit large-scale closed-loop interaction. Consequently, real-world gains and generalization are often limited. In this paper, we propose an \textit{RL}-based sim-real \textit{Co}-training (RL-Co) framework that leverages interactive simulation while preserving real-world capabilities. Our method follows a generic two-stage design: we first warm-start the policy with SFT on a mixture of real and simulated demonstrations, then fine-tune it with reinforcement learning in simulation while adding an auxiliary supervised loss on real-world data to anchor the policy and mitigate catastrophic forgetting. We evaluate our framework on four real-world tabletop manipulation tasks using two representative VLA architectures, OpenVLA and π_{0.5}, and observe consistent improvements over real-only fine-tuning and SFT-based co-training, including +24% real-world success on OpenVLA and +20% on π_{0.5}. Beyond higher success rates, RL co-training yields stronger generalization to unseen task variations and substantially improved real-world data efficiency, providing a practical and scalable pathway for leveraging simulation to enhance real-robot deployment.