ChatPaper.aiChatPaper

CoIRL-AD: Collaboratief-Competitief Imitatie-Versterkend Leren in Latente Wereldmodellen voor Autonoom Rijden

CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

October 14, 2025
Auteurs: Xiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong
cs.AI

Samenvatting

End-to-end autonome rijmodellen die uitsluitend zijn getraind met imitatieleren (IL) lijden vaak onder slechte generalisatie. Daarentegen bevordert reinforcement learning (RL) exploratie door beloningsmaximalisatie, maar kampt met uitdagingen zoals inefficiënt gebruik van samples en instabiele convergentie. Een natuurlijke oplossing is om IL en RL te combineren. Voorbij het conventionele tweestappenparadigma (IL-vooraf trainen gevolgd door RL-finetuning) stellen we CoIRL-AD voor, een competitief dual-policy raamwerk dat IL- en RL-agenten in staat stelt om tijdens de training te interacteren. CoIRL-AD introduceert een op competitie gebaseerd mechanisme dat kennisuitwisseling faciliteert terwijl het gradientconflicten voorkomt. Experimenten op de nuScenes-dataset laten een reductie van 18% in botsingspercentage zien in vergelijking met baseline-modellen, samen met sterkere generalisatie en verbeterde prestaties in zeldzame scenario's. De code is beschikbaar op: https://github.com/SEU-zxj/CoIRL-AD.
English
End-to-end autonomous driving models trained solely with imitation learning (IL) often suffer from poor generalization. In contrast, reinforcement learning (RL) promotes exploration through reward maximization but faces challenges such as sample inefficiency and unstable convergence. A natural solution is to combine IL and RL. Moving beyond the conventional two-stage paradigm (IL pretraining followed by RL fine-tuning), we propose CoIRL-AD, a competitive dual-policy framework that enables IL and RL agents to interact during training. CoIRL-AD introduces a competition-based mechanism that facilitates knowledge exchange while preventing gradient conflicts. Experiments on the nuScenes dataset show an 18% reduction in collision rate compared to baselines, along with stronger generalization and improved performance on long-tail scenarios. Code is available at: https://github.com/SEU-zxj/CoIRL-AD.
PDF42October 16, 2025