RLinf-Co: VLA 모델을 위한 강화 학습 기반 시뮬레이션-현실 협력 학습
RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
February 13, 2026
저자: Liangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI
초록
시뮬레이션은 시각-언어-행동(VLA) 훈련을 풍부하게 하는 확장성 높고 저비용의 방법을 제공하여, 비용이 많이 드는 실제 로봇 데모에 대한 의존도를 줄여줍니다. 그러나 대부분의 시뮬-리얼 공동 훈련 방법은 지도 미세 조정(SFT)에 의존하는데, 이는 시뮬레이션을 정적인 데모 출처로만 간주하고 대규모 폐쇄형 상호작용을 활용하지 못합니다. 결과적으로 실제 세계에서의 성능 향상과 일반화는 종종 제한적입니다. 본 논문에서는 대화형 시뮬레이션의 이점을 활용하면서 실제 세계 능력을 보존하는 \textit{강화학습(RL)} 기반 시뮬-리얼 \textit{공동} 훈련(RL-Co) 프레임워크를 제안합니다. 우리의 방법은 일반적인 2단계 설계를 따릅니다: 먼저 실제 및 시뮬레이션 데모를 혼합한 데이터로 SFT를 통해 정책을 예비 학습한 후, 시뮬레이션 내에서 강화학습을 통해 미세 조정함과 동시에 실제 세계 데이터에 대한 보조 지도 손실을 추가하여 정책을 고정시키고 치명적 망각을 완화합니다. 우리는 대표적인 두 VLA 아키텍처인 OpenVLA와 π_{0.5}를 사용하여 네 가지 실제 월드 테이블탑 조작 작업에 대해 본 프레임워크를 평가하였으며, 실제 데이터만 사용한 미세 조정 및 SFT 기반 공동 훈련 대비 OpenVLA에서 +24%, π_{0.5}에서 +20%의 실제 성공률 향상을 포함한 지속적인 개선을 관찰했습니다. 더 높은 성공률을 넘어서, RL 공동 훈련은 보지 못한 작업 변형에 대한 더 강력한 일반화 능력과 실제 세계 데이터 효율성을 크게 향상시켜, 시뮬레이션을 활용하여 실제 로봇 배포를 강화하는 실용적이고 확장 가능한 경로를 제공합니다.
English
Simulation offers a scalable and low-cost way to enrich vision-language-action (VLA) training, reducing reliance on expensive real-robot demonstrations. However, most sim-real co-training methods rely on supervised fine-tuning (SFT), which treats simulation as a static source of demonstrations and does not exploit large-scale closed-loop interaction. Consequently, real-world gains and generalization are often limited. In this paper, we propose an \textit{RL}-based sim-real \textit{Co}-training (RL-Co) framework that leverages interactive simulation while preserving real-world capabilities. Our method follows a generic two-stage design: we first warm-start the policy with SFT on a mixture of real and simulated demonstrations, then fine-tune it with reinforcement learning in simulation while adding an auxiliary supervised loss on real-world data to anchor the policy and mitigate catastrophic forgetting. We evaluate our framework on four real-world tabletop manipulation tasks using two representative VLA architectures, OpenVLA and π_{0.5}, and observe consistent improvements over real-only fine-tuning and SFT-based co-training, including +24% real-world success on OpenVLA and +20% on π_{0.5}. Beyond higher success rates, RL co-training yields stronger generalization to unseen task variations and substantially improved real-world data efficiency, providing a practical and scalable pathway for leveraging simulation to enhance real-robot deployment.