RLinf-Co: Совместное обучение в симуляции и реальности моделей VLA на основе обучения с подкреплением
RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
February 13, 2026
Авторы: Liangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI
Аннотация
Моделирование предлагает масштабируемый и экономичный способ обогащения обучения моделей «зрение-язык-действие» (VLA), снижая зависимость от дорогостоящих демонстраций на реальных роботах. Однако большинство методов совместного обучения в симуляции и реальности опираются на контролируемую тонкую настройку (SFT), которая рассматривает симуляцию как статичный источник демонстраций и не использует масштабное замкнутое взаимодействие. Как следствие, достижения в реальном мире и обобщающая способность часто оказываются ограниченными. В данной статье мы предлагаем основанную на обучении с подкреплением (RL) структуру совместного обучения в симуляции и реальности (RL-Co), которая использует интерактивную симуляцию, сохраняя при этом возможности работы в реальном мире. Наш метод следует общей двухэтапной схеме: сначала мы производим начальную инициализацию политики с помощью SFT на смеси реальных и смоделированных демонстраций, а затем выполняем её тонкую настройку с помощью обучения с подкреплением в симуляции, одновременно добавляя вспомогательную функцию контролируемых потерь на реальных данных, чтобы закрепить политику и смягчить катастрофическое забывание. Мы оцениваем нашу структуру на четырёх задачах манипулирования объектами на столе в реальном мире, используя две репрезентативные архитектуры VLA — OpenVLA и π_{0.5}, — и наблюдаем устойчивое улучшение по сравнению с тонкой настройкой только на реальных данных и совместным обучением на основе SFT, включая увеличение успешности в реальном мире на +24% для OpenVLA и на +20% для π_{0.5}. Помимо более высоких показателей успеха, совместное обучение с подкреплением обеспечивает лучшую обобщающую способность к незнакомым вариациям задач и существенно повышает эффективность использования реальных данных, предлагая практичный и масштабируемый путь для использования симуляции с целью улучшения развёртывания реальных роботов.
English
Simulation offers a scalable and low-cost way to enrich vision-language-action (VLA) training, reducing reliance on expensive real-robot demonstrations. However, most sim-real co-training methods rely on supervised fine-tuning (SFT), which treats simulation as a static source of demonstrations and does not exploit large-scale closed-loop interaction. Consequently, real-world gains and generalization are often limited. In this paper, we propose an \textit{RL}-based sim-real \textit{Co}-training (RL-Co) framework that leverages interactive simulation while preserving real-world capabilities. Our method follows a generic two-stage design: we first warm-start the policy with SFT on a mixture of real and simulated demonstrations, then fine-tune it with reinforcement learning in simulation while adding an auxiliary supervised loss on real-world data to anchor the policy and mitigate catastrophic forgetting. We evaluate our framework on four real-world tabletop manipulation tasks using two representative VLA architectures, OpenVLA and π_{0.5}, and observe consistent improvements over real-only fine-tuning and SFT-based co-training, including +24% real-world success on OpenVLA and +20% on π_{0.5}. Beyond higher success rates, RL co-training yields stronger generalization to unseen task variations and substantially improved real-world data efficiency, providing a practical and scalable pathway for leveraging simulation to enhance real-robot deployment.