欠損モダリティ下でのロバストなマルチモーダル模倣学習のための強化学習誘導型検索とソフトフュージョン
Reinforcement Learning-Guided Retrieval with Soft Fusion for Robust Multimodal Imitation Learning under Missing Modalities
June 13, 2026
著者: Hassan Ismkhan, Hamid Bouchahcia
cs.AI
要旨
ロボットシステムは、視覚的なカメラストリームや自然言語による指示など、複数の入力モダリティを通じて世界を知覚し、それらの信号に基づいて適切なアクションを選択する必要がある。しかし、すべての入力デバイスが常に利用可能であると仮定するのは非現実的であり、センサーが故障したり、遮蔽されたり、デプロイメント中に完全に脱落したりする可能性がある。そのため、このようなモダリティ欠落シナリオに対するロバストな処理は、実世界でのロボット運用に不可欠である。本論文では、RL4IL(Reinforcement Learning guided method for Imitation Learning)を紹介する。これは、強化学習を用いて、訓練ライブラリから最も関連性の高いエキスパートデモンストレーションを特定することで、与えられた観測に最も適したアクションを選択する模倣学習手法である。幅優先探索の候補セットに対して近位方策最適化(PPO)で訓練された強化学習ポリシーが、候補デモンストレーションをランク付けし、ソフトな交差注意融合ヘッドがそれらのアクション信号を集約して最終予測を生成する。推論時にモダリティが欠落した場合、専用のモダリティ別RL検索ポリシーが訓練ライブラリから寄与デモンストレーターを特定し、ソフトな補完ヘッドが上位ランクの寄与デモンストレーター間の交差注意を介して欠落した埋め込みを再構築する。このプロセスでは、システムの再訓練は一切不要である。3つのLIBEROベンチマークスイートによる実験では、RL4ILがセンサー欠落条件下で最先端の模倣学習手法を大幅に上回り、かつポリシーネットワークの訓練を必要としないことを示している。コードは https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera で入手できる。
English
Robotic systems perceive the world through multiple input modalities -- including visual camera streams and natural language instructions -- and must select appropriate actions based on these signals. However, assuming the permanent availability of all input devices is unrealistic, as sensors may fail, become occluded, or drop out entirely during deployment. Robust handling of such missing-modality scenarios is therefore essential for real-world robot operation. This paper introduces RL4IL, a reinforcement learning guided method for imitation learning that selects the most suitable action for a given observation by identifying the most relevant expert demonstrations from a training library. A reinforcement learning policy, trained via Proximal Policy Optimisation over Breadth-First Search candidate sets, ranks candidate demonstrations and a soft cross-attention fusion head aggregates their action signals to produce the final prediction. When a modality is missing at inference time, a dedicated per-modality RL retrieval policy identifies donor demonstrations from the training library, and a soft imputation head reconstructs the missing embedding via cross-attention over the top-ranked donors -- without requiring any retraining of the system. Experiments on three LIBERO benchmark suites demonstrate that RL4IL substantially outperforms state-of-the-art imitation learning methods under sensor dropout conditions, while requiring no policy network training. The code can be found at https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera