ChatPaper.aiChatPaper

CoIRL-AD: 自律走行のための潜在世界モデルにおける協調的・競争的模倣強化学習

CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

October 14, 2025
著者: Xiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong
cs.AI

要旨

模倣学習(IL)のみで訓練されたエンドツーエンドの自動運転モデルは、一般化性能が低いことが多い。一方、強化学習(RL)は報酬最大化を通じて探索を促進するが、サンプル効率の低さや収束の不安定性といった課題に直面する。これらの問題を解決する自然な方法は、ILとRLを組み合わせることである。従来の二段階パラダイム(ILによる事前学習とそれに続くRLによる微調整)を超えて、我々はCoIRL-ADを提案する。これは、訓練中にILエージェントとRLエージェントが相互作用する競合型デュアルポリシーフレームワークである。CoIRL-ADは、競争ベースのメカニズムを導入し、勾配衝突を防ぎながら知識交換を促進する。nuScenesデータセットを用いた実験では、ベースラインと比較して衝突率が18%減少し、一般化性能が向上し、ロングテールシナリオでのパフォーマンスが改善されたことが示された。コードは以下で公開されている:https://github.com/SEU-zxj/CoIRL-AD。
English
End-to-end autonomous driving models trained solely with imitation learning (IL) often suffer from poor generalization. In contrast, reinforcement learning (RL) promotes exploration through reward maximization but faces challenges such as sample inefficiency and unstable convergence. A natural solution is to combine IL and RL. Moving beyond the conventional two-stage paradigm (IL pretraining followed by RL fine-tuning), we propose CoIRL-AD, a competitive dual-policy framework that enables IL and RL agents to interact during training. CoIRL-AD introduces a competition-based mechanism that facilitates knowledge exchange while preventing gradient conflicts. Experiments on the nuScenes dataset show an 18% reduction in collision rate compared to baselines, along with stronger generalization and improved performance on long-tail scenarios. Code is available at: https://github.com/SEU-zxj/CoIRL-AD.
PDF42October 16, 2025