ChatPaper.aiChatPaper

CoIRL-AD: Aprendizado por Imitação e Reforço Colaborativo-Competitivo em Modelos de Mundo Latente para Condução Autônoma

CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

October 14, 2025
Autores: Xiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong
cs.AI

Resumo

Modelos de condução autônoma de ponta a ponta treinados exclusivamente com aprendizado por imitação (IL) frequentemente apresentam problemas de generalização. Em contraste, o aprendizado por reforço (RL) promove a exploração por meio da maximização de recompensas, mas enfrenta desafios como ineficiência amostral e convergência instável. Uma solução natural é combinar IL e RL. Indo além do paradigma convencional de duas etapas (pré-treinamento com IL seguido de ajuste fino com RL), propomos o CoIRL-AD, uma estrutura de política dual competitiva que permite a interação entre agentes de IL e RL durante o treinamento. O CoIRL-AD introduz um mecanismo baseado em competição que facilita a troca de conhecimento enquanto evita conflitos de gradiente. Experimentos no conjunto de dados nuScenes mostram uma redução de 18% na taxa de colisão em comparação com as abordagens basais, além de uma generalização mais robusta e desempenho aprimorado em cenários de cauda longa. O código está disponível em: https://github.com/SEU-zxj/CoIRL-AD.
English
End-to-end autonomous driving models trained solely with imitation learning (IL) often suffer from poor generalization. In contrast, reinforcement learning (RL) promotes exploration through reward maximization but faces challenges such as sample inefficiency and unstable convergence. A natural solution is to combine IL and RL. Moving beyond the conventional two-stage paradigm (IL pretraining followed by RL fine-tuning), we propose CoIRL-AD, a competitive dual-policy framework that enables IL and RL agents to interact during training. CoIRL-AD introduces a competition-based mechanism that facilitates knowledge exchange while preventing gradient conflicts. Experiments on the nuScenes dataset show an 18% reduction in collision rate compared to baselines, along with stronger generalization and improved performance on long-tail scenarios. Code is available at: https://github.com/SEU-zxj/CoIRL-AD.
PDF42October 16, 2025