CoIRL-AD: Kollaborativ-kompetitives Imitations- und Verstärkungslernen in latenten Weltmodellen für autonomes Fahren
CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving
October 14, 2025
papers.authors: Xiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong
cs.AI
papers.abstract
End-to-End-Autonome-Fahrmodelle, die ausschließlich mit Imitationslernen (IL) trainiert werden, leiden oft unter schlechter Generalisierung. Im Gegensatz dazu fördert Reinforcement Learning (RL) die Exploration durch Belohnungsmaximierung, steht jedoch vor Herausforderungen wie Ineffizienz bei der Stichprobenverarbeitung und instabiler Konvergenz. Eine naheliegende Lösung besteht darin, IL und RL zu kombinieren. Über das konventionelle zweistufige Paradigma (IL-Vortraining gefolgt von RL-Feinabstimmung) hinaus schlagen wir CoIRL-AD vor, ein kompetitives Dual-Policy-Framework, das es IL- und RL-Agenten ermöglicht, während des Trainings zu interagieren. CoIRL-AD führt einen wettbewerbsbasierten Mechanismus ein, der den Wissensaustausch erleichtert und gleichzeitig Gradientenkonflikte verhindert. Experimente mit dem nuScenes-Datensatz zeigen eine Reduzierung der Kollisionsrate um 18 % im Vergleich zu den Baselines, verbunden mit einer stärkeren Generalisierung und verbesserten Leistungen in langschwänzigen Szenarien. Der Code ist verfügbar unter: https://github.com/SEU-zxj/CoIRL-AD.
English
End-to-end autonomous driving models trained solely with imitation learning
(IL) often suffer from poor generalization. In contrast, reinforcement learning
(RL) promotes exploration through reward maximization but faces challenges such
as sample inefficiency and unstable convergence. A natural solution is to
combine IL and RL. Moving beyond the conventional two-stage paradigm (IL
pretraining followed by RL fine-tuning), we propose CoIRL-AD, a competitive
dual-policy framework that enables IL and RL agents to interact during
training. CoIRL-AD introduces a competition-based mechanism that facilitates
knowledge exchange while preventing gradient conflicts. Experiments on the
nuScenes dataset show an 18% reduction in collision rate compared to baselines,
along with stronger generalization and improved performance on long-tail
scenarios. Code is available at: https://github.com/SEU-zxj/CoIRL-AD.