RLinf-Co: Entrenamiento Cooperativo Sim-Real Basado en Aprendizaje por Refuerzo para Modelos VLA
RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
February 13, 2026
Autores: Liangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI
Resumen
La simulación ofrece una forma escalable y de bajo costo para enriquecer el entrenamiento visión-lenguaje-acción (VLA), reduciendo la dependencia de demostraciones costosas con robots reales. Sin embargo, la mayoría de los métodos de co-entrenamiento sim-real se basan en el ajuste fino supervisado (SFT), que trata la simulación como una fuente estática de demostraciones y no aprovecha la interacción interactiva a gran escala en bucle cerrado. En consecuencia, las ganancias en el mundo real y la generalización suelen ser limitadas. En este artículo, proponemos un marco de \textit{Co}-entrenamiento sim-real basado en \textit{RL} (RL-Co) que aprovecha la simulación interactiva mientras preserva las capacidades en el mundo real. Nuestro método sigue un diseño genérico de dos etapas: primero inicializamos la política mediante SFT con una mezcla de demostraciones reales y simuladas, y luego la ajustamos mediante aprendizaje por refuerzo en simulación, añadiendo una pérdida supervisada auxiliar sobre datos del mundo real para anclar la política y mitigar el olvido catastrófico. Evaluamos nuestro marco en cuatro tareas de manipulación en mesas del mundo real utilizando dos arquitecturas VLA representativas, OpenVLA y π_{0.5}, y observamos mejoras consistentes respecto al ajuste fino solo con datos reales y al co-entrenamiento basado en SFT, incluyendo un +24% de éxito en el mundo real con OpenVLA y un +20% con π_{0.5}. Más allá de mayores tasas de éxito, el co-entrenamiento con RL produce una generalización más sólida a variaciones de tareas no vistas y mejora sustancialmente la eficiencia de los datos del mundo real, proporcionando una vía práctica y escalable para aprovechar la simulación y mejorar el despliegue de robots reales.
English
Simulation offers a scalable and low-cost way to enrich vision-language-action (VLA) training, reducing reliance on expensive real-robot demonstrations. However, most sim-real co-training methods rely on supervised fine-tuning (SFT), which treats simulation as a static source of demonstrations and does not exploit large-scale closed-loop interaction. Consequently, real-world gains and generalization are often limited. In this paper, we propose an \textit{RL}-based sim-real \textit{Co}-training (RL-Co) framework that leverages interactive simulation while preserving real-world capabilities. Our method follows a generic two-stage design: we first warm-start the policy with SFT on a mixture of real and simulated demonstrations, then fine-tune it with reinforcement learning in simulation while adding an auxiliary supervised loss on real-world data to anchor the policy and mitigate catastrophic forgetting. We evaluate our framework on four real-world tabletop manipulation tasks using two representative VLA architectures, OpenVLA and π_{0.5}, and observe consistent improvements over real-only fine-tuning and SFT-based co-training, including +24% real-world success on OpenVLA and +20% on π_{0.5}. Beyond higher success rates, RL co-training yields stronger generalization to unseen task variations and substantially improved real-world data efficiency, providing a practical and scalable pathway for leveraging simulation to enhance real-robot deployment.