CoIRL-AD : Apprentissage par Imitation-Renforcement Collaboratif-Concurrentiel dans des Modèles de Monde Latents pour la Conduite Autonome
CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving
October 14, 2025
papers.authors: Xiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong
cs.AI
papers.abstract
Les modèles de conduite autonome de bout en bout entraînés uniquement par apprentissage par imitation (IL) souffrent souvent d'une mauvaise généralisation. En revanche, l'apprentissage par renforcement (RL) favorise l'exploration grâce à la maximisation des récompenses, mais se heurte à des défis tels que l'inefficacité en termes d'échantillons et une convergence instable. Une solution naturelle consiste à combiner IL et RL. Allant au-delà du paradigme conventionnel en deux étapes (pré-entraînement par IL suivi d'un affinage par RL), nous proposons CoIRL-AD, un cadre compétitif à double politique qui permet aux agents IL et RL d'interagir pendant l'entraînement. CoIRL-AD introduit un mécanisme basé sur la compétition qui facilite l'échange de connaissances tout en évitant les conflits de gradients. Les expériences sur le jeu de données nuScenes montrent une réduction de 18 % du taux de collision par rapport aux méthodes de référence, ainsi qu'une meilleure généralisation et des performances améliorées dans les scénarios à longue traîne. Le code est disponible à l'adresse : https://github.com/SEU-zxj/CoIRL-AD.
English
End-to-end autonomous driving models trained solely with imitation learning
(IL) often suffer from poor generalization. In contrast, reinforcement learning
(RL) promotes exploration through reward maximization but faces challenges such
as sample inefficiency and unstable convergence. A natural solution is to
combine IL and RL. Moving beyond the conventional two-stage paradigm (IL
pretraining followed by RL fine-tuning), we propose CoIRL-AD, a competitive
dual-policy framework that enables IL and RL agents to interact during
training. CoIRL-AD introduces a competition-based mechanism that facilitates
knowledge exchange while preventing gradient conflicts. Experiments on the
nuScenes dataset show an 18% reduction in collision rate compared to baselines,
along with stronger generalization and improved performance on long-tail
scenarios. Code is available at: https://github.com/SEU-zxj/CoIRL-AD.