ChatPaper.aiChatPaper

RAD: Обучение сквозной политики вождения с использованием крупномасштабного обучения с подкреплением на основе 3DGS

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

February 18, 2025
Авторы: Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI

Аннотация

Существующие алгоритмы сквозного автономного вождения (AD) обычно следуют парадигме обучения с подражанием (Imitation Learning, IL), которая сталкивается с такими проблемами, как причинно-следственная путаница и разрыв в открытом цикле. В данной работе мы предлагаем новую парадигму обучения с подкреплением (Reinforcement Learning, RL) в замкнутом цикле, основанную на 3DGS-технологиях. Используя методы 3DGS, мы создаем фотореалистичную цифровую копию реального физического мира, что позволяет политике AD активно исследовать пространство состояний и обучаться справляться с ситуациями, выходящими за пределы распределения, через масштабные пробы и ошибки. Для повышения безопасности мы разрабатываем специализированные вознаграждения, которые направляют политику на эффективное реагирование на критические события и понимание причинно-следственных связей в реальном мире. Для лучшего соответствия поведению человека за рулем, IL интегрируется в обучение RL в качестве регуляризатора. Мы представляем эталонный тест для оценки в замкнутом цикле, состоящий из разнообразных, ранее не встречавшихся 3DGS-сред. По сравнению с методами на основе IL, RAD демонстрирует более высокую производительность по большинству метрик замкнутого цикла, особенно с трехкратным снижением частоты столкновений. Обширные результаты тестирования в замкнутом цикле представлены на https://hgao-cv.github.io/RAD.
English
Existing end-to-end autonomous driving (AD) algorithms typically follow the Imitation Learning (IL) paradigm, which faces challenges such as causal confusion and the open-loop gap. In this work, we establish a 3DGS-based closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS techniques, we construct a photorealistic digital replica of the real physical world, enabling the AD policy to extensively explore the state space and learn to handle out-of-distribution scenarios through large-scale trial and error. To enhance safety, we design specialized rewards that guide the policy to effectively respond to safety-critical events and understand real-world causal relationships. For better alignment with human driving behavior, IL is incorporated into RL training as a regularization term. We introduce a closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS environments. Compared to IL-based methods, RAD achieves stronger performance in most closed-loop metrics, especially 3x lower collision rate. Abundant closed-loop results are presented at https://hgao-cv.github.io/RAD.

Summary

AI-Generated Summary

PDF402February 20, 2025