ChatPaper.aiChatPaper

CoIRL-AD: Совместно-конкурентное обучение с подражанием и с подкреплением в латентных моделях мира для автономного вождения

CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

October 14, 2025
Авторы: Xiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong
cs.AI

Аннотация

Модели автономного вождения, обученные с использованием исключительно имитационного обучения (IL), часто демонстрируют слабую обобщающую способность. В то же время обучение с подкреплением (RL) способствует исследованию через максимизацию награды, но сталкивается с такими проблемами, как низкая эффективность использования данных и нестабильная сходимость. Естественным решением является комбинация IL и RL. Выходя за рамки традиционного двухэтапного подхода (предварительное обучение с помощью IL с последующей доработкой через RL), мы предлагаем CoIRL-AD — конкурентную двухполитическую архитектуру, которая позволяет агентам IL и RL взаимодействовать в процессе обучения. CoIRL-AD вводит механизм, основанный на конкуренции, который способствует обмену знаниями, предотвращая при этом конфликты градиентов. Эксперименты на наборе данных nuScenes показали снижение частоты столкновений на 18% по сравнению с базовыми методами, а также улучшенную обобщающую способность и производительность в редких сценариях. Код доступен по адресу: https://github.com/SEU-zxj/CoIRL-AD.
English
End-to-end autonomous driving models trained solely with imitation learning (IL) often suffer from poor generalization. In contrast, reinforcement learning (RL) promotes exploration through reward maximization but faces challenges such as sample inefficiency and unstable convergence. A natural solution is to combine IL and RL. Moving beyond the conventional two-stage paradigm (IL pretraining followed by RL fine-tuning), we propose CoIRL-AD, a competitive dual-policy framework that enables IL and RL agents to interact during training. CoIRL-AD introduces a competition-based mechanism that facilitates knowledge exchange while preventing gradient conflicts. Experiments on the nuScenes dataset show an 18% reduction in collision rate compared to baselines, along with stronger generalization and improved performance on long-tail scenarios. Code is available at: https://github.com/SEU-zxj/CoIRL-AD.
PDF42October 16, 2025