CoIRL-AD: 자율 주행을 위한 잠재 세계 모델에서의 협력-경쟁 모방-강화 학습
CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving
October 14, 2025
저자: Xiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong
cs.AI
초록
순수 모방 학습(IL)만으로 훈련된 종단간 자율 주행 모델은 일반적으로 낮은 일반화 성능을 보이는 문제가 있습니다. 반면, 강화 학습(RL)은 보상 최대화를 통해 탐색을 촉진하지만 샘플 비효율성과 불안정한 수렴과 같은 과제에 직면합니다. 이를 해결하기 위한 자연스러운 접근 방식은 IL과 RL을 결합하는 것입니다. 기존의 두 단계 패러다임(IL 사전 훈련 후 RL 미세 조정)을 넘어서, 우리는 CoIRL-AD를 제안합니다. 이는 훈련 중에 IL과 RL 에이전트가 상호작용할 수 있는 경쟁 기반의 이중 정책 프레임워크입니다. CoIRL-AD는 경쟁 기반 메커니즘을 도입하여 지식 교환을 촉진하면서도 그래디언트 충돌을 방지합니다. nuScenes 데이터셋에서의 실험 결과, CoIRL-AD는 기준 모델 대비 충돌률을 18% 감소시켰으며, 더 강력한 일반화 성능과 긴 꼬리 시나리오에서의 향상된 성능을 보였습니다. 코드는 https://github.com/SEU-zxj/CoIRL-AD에서 확인할 수 있습니다.
English
End-to-end autonomous driving models trained solely with imitation learning
(IL) often suffer from poor generalization. In contrast, reinforcement learning
(RL) promotes exploration through reward maximization but faces challenges such
as sample inefficiency and unstable convergence. A natural solution is to
combine IL and RL. Moving beyond the conventional two-stage paradigm (IL
pretraining followed by RL fine-tuning), we propose CoIRL-AD, a competitive
dual-policy framework that enables IL and RL agents to interact during
training. CoIRL-AD introduces a competition-based mechanism that facilitates
knowledge exchange while preventing gradient conflicts. Experiments on the
nuScenes dataset show an 18% reduction in collision rate compared to baselines,
along with stronger generalization and improved performance on long-tail
scenarios. Code is available at: https://github.com/SEU-zxj/CoIRL-AD.