ChatPaper.aiChatPaper

CoIRL-AD: Aprendizaje por Imitación-Refuerzo Colaborativo-Competitivo en Modelos de Mundo Latente para la Conducción Autónoma

CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

October 14, 2025
Autores: Xiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong
cs.AI

Resumen

Los modelos de conducción autónoma de extremo a extremo entrenados únicamente con aprendizaje por imitación (IL, por sus siglas en inglés) suelen presentar una generalización deficiente. Por el contrario, el aprendizaje por refuerzo (RL, por sus siglas en inglés) fomenta la exploración mediante la maximización de recompensas, pero enfrenta desafíos como la ineficiencia en el uso de muestras y una convergencia inestable. Una solución natural es combinar IL y RL. Más allá del paradigma convencional de dos etapas (preentrenamiento con IL seguido de ajuste fino con RL), proponemos CoIRL-AD, un marco de políticas duales competitivo que permite la interacción entre agentes de IL y RL durante el entrenamiento. CoIRL-AD introduce un mecanismo basado en competencia que facilita el intercambio de conocimientos mientras evita conflictos en los gradientes. Los experimentos en el conjunto de datos nuScenes muestran una reducción del 18% en la tasa de colisiones en comparación con los métodos de referencia, junto con una mayor generalización y un mejor rendimiento en escenarios de cola larga. El código está disponible en: https://github.com/SEU-zxj/CoIRL-AD.
English
End-to-end autonomous driving models trained solely with imitation learning (IL) often suffer from poor generalization. In contrast, reinforcement learning (RL) promotes exploration through reward maximization but faces challenges such as sample inefficiency and unstable convergence. A natural solution is to combine IL and RL. Moving beyond the conventional two-stage paradigm (IL pretraining followed by RL fine-tuning), we propose CoIRL-AD, a competitive dual-policy framework that enables IL and RL agents to interact during training. CoIRL-AD introduces a competition-based mechanism that facilitates knowledge exchange while preventing gradient conflicts. Experiments on the nuScenes dataset show an 18% reduction in collision rate compared to baselines, along with stronger generalization and improved performance on long-tail scenarios. Code is available at: https://github.com/SEU-zxj/CoIRL-AD.
PDF42October 16, 2025