ChatPaper.aiChatPaper

RLinf-Co: VLAモデルのための強化学習ベースド実機・シミュレータ協調学習

RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

February 13, 2026
著者: Liangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI

要旨

シミュレーションは、視覚言語行動(VLA)モデルの学習データを拡充するための、スケーラブルで低コストな手法を提供し、高価な実ロボットによる実演データへの依存を軽減する。しかし、ほとんどのシミュレーション-実環境共同訓練手法は教師ありファインチューニング(SFT)に依存しており、シミュレーションを静的な実演データの供給源として扱うだけで、大規模な閉ループ相互作用を活用していない。その結果、実世界での性能向上や汎化性能は往々にして限定的となる。本論文では、対話型シミュレーションを活用しつつ実世界での能力を維持する、強化学習(RL)ベースのシミュレーション-実環境共同訓練(RL-Co)フレームワークを提案する。我々の手法は、汎用的な2段階設計に従う。まず、実世界とシミュレーションの実演データを混合したデータセットでSFTを用いてポリシーをウォームスタートし、次に、シミュレーション内で強化学習によるファインチューニングを実施する。この際、実世界データに対する補助的な教師あり損失を追加し、ポリシーを固定点に拘束して破滅的忘却を軽減する。代表的なVLAアーキテクチャであるOpenVLAとπ_{0.5}を用いた4つの実世界タブレットップマニピュレーション課題で本フレームワークを評価した結果、実データのみによるファインチューニングやSFTベースの共同訓練と比較して一貫した改善が観察され、OpenVLAでは実世界成功率が+24%、π_{0.5}では+20%向上した。成功率の向上に加えて、RL共同訓練は、未見のタスク変種に対するより強力な汎化性能と、実世界データ効率の大幅な改善をもたらし、実ロボットの性能向上に向けてシミュレーションを活用する実用的かつスケーラブルな経路を提供する。
English
Simulation offers a scalable and low-cost way to enrich vision-language-action (VLA) training, reducing reliance on expensive real-robot demonstrations. However, most sim-real co-training methods rely on supervised fine-tuning (SFT), which treats simulation as a static source of demonstrations and does not exploit large-scale closed-loop interaction. Consequently, real-world gains and generalization are often limited. In this paper, we propose an \textit{RL}-based sim-real \textit{Co}-training (RL-Co) framework that leverages interactive simulation while preserving real-world capabilities. Our method follows a generic two-stage design: we first warm-start the policy with SFT on a mixture of real and simulated demonstrations, then fine-tune it with reinforcement learning in simulation while adding an auxiliary supervised loss on real-world data to anchor the policy and mitigate catastrophic forgetting. We evaluate our framework on four real-world tabletop manipulation tasks using two representative VLA architectures, OpenVLA and π_{0.5}, and observe consistent improvements over real-only fine-tuning and SFT-based co-training, including +24% real-world success on OpenVLA and +20% on π_{0.5}. Beyond higher success rates, RL co-training yields stronger generalization to unseen task variations and substantially improved real-world data efficiency, providing a practical and scalable pathway for leveraging simulation to enhance real-robot deployment.
PDF92February 17, 2026