ChatPaper.aiChatPaper

CoIRL-AD: Apprendimento Imitativo-Rinforzato Collaborativo-Competitivo nei Modelli del Mondo Latente per la Guida Autonoma

CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

October 14, 2025
Autori: Xiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong
cs.AI

Abstract

I modelli di guida autonoma end-to-end addestrati esclusivamente con apprendimento per imitazione (IL) spesso soffrono di una scarsa generalizzazione. Al contrario, l'apprendimento per rinforzo (RL) promuove l'esplorazione attraverso la massimizzazione della ricompensa, ma affronta sfide come l'inefficienza nel campionamento e la convergenza instabile. Una soluzione naturale è combinare IL e RL. Andando oltre il convenzionale paradigma a due fasi (pre-addestramento con IL seguito da affinamento con RL), proponiamo CoIRL-AD, un framework competitivo a doppia politica che consente agli agenti IL e RL di interagire durante l'addestramento. CoIRL-AD introduce un meccanismo basato sulla competizione che facilita lo scambio di conoscenze prevenendo conflitti nei gradienti. Gli esperimenti sul dataset nuScenes mostrano una riduzione del 18% nel tasso di collisioni rispetto ai metodi di riferimento, insieme a una maggiore generalizzazione e migliori prestazioni negli scenari a coda lunga. Il codice è disponibile all'indirizzo: https://github.com/SEU-zxj/CoIRL-AD.
English
End-to-end autonomous driving models trained solely with imitation learning (IL) often suffer from poor generalization. In contrast, reinforcement learning (RL) promotes exploration through reward maximization but faces challenges such as sample inefficiency and unstable convergence. A natural solution is to combine IL and RL. Moving beyond the conventional two-stage paradigm (IL pretraining followed by RL fine-tuning), we propose CoIRL-AD, a competitive dual-policy framework that enables IL and RL agents to interact during training. CoIRL-AD introduces a competition-based mechanism that facilitates knowledge exchange while preventing gradient conflicts. Experiments on the nuScenes dataset show an 18% reduction in collision rate compared to baselines, along with stronger generalization and improved performance on long-tail scenarios. Code is available at: https://github.com/SEU-zxj/CoIRL-AD.
PDF42October 16, 2025