RAD: Обучение сквозной политики вождения с использованием крупномасштабного обучения с подкреплением на основе 3DGS

Аннотация

Существующие алгоритмы сквозного автономного вождения (AD) обычно следуют парадигме обучения с подражанием (Imitation Learning, IL), которая сталкивается с такими проблемами, как причинно-следственная путаница и разрыв в открытом цикле. В данной работе мы предлагаем новую парадигму обучения с подкреплением (Reinforcement Learning, RL) в замкнутом цикле, основанную на 3DGS-технологиях. Используя методы 3DGS, мы создаем фотореалистичную цифровую копию реального физического мира, что позволяет политике AD активно исследовать пространство состояний и обучаться справляться с ситуациями, выходящими за пределы распределения, через масштабные пробы и ошибки. Для повышения безопасности мы разрабатываем специализированные вознаграждения, которые направляют политику на эффективное реагирование на критические события и понимание причинно-следственных связей в реальном мире. Для лучшего соответствия поведению человека за рулем, IL интегрируется в обучение RL в качестве регуляризатора. Мы представляем эталонный тест для оценки в замкнутом цикле, состоящий из разнообразных, ранее не встречавшихся 3DGS-сред. По сравнению с методами на основе IL, RAD демонстрирует более высокую производительность по большинству метрик замкнутого цикла, особенно с трехкратным снижением частоты столкновений. Обширные результаты тестирования в замкнутом цикле представлены на https://hgao-cv.github.io/RAD.

English

Existing end-to-end autonomous driving (AD) algorithms typically follow the Imitation Learning (IL) paradigm, which faces challenges such as causal confusion and the open-loop gap. In this work, we establish a 3DGS-based closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS techniques, we construct a photorealistic digital replica of the real physical world, enabling the AD policy to extensively explore the state space and learn to handle out-of-distribution scenarios through large-scale trial and error. To enhance safety, we design specialized rewards that guide the policy to effectively respond to safety-critical events and understand real-world causal relationships. For better alignment with human driving behavior, IL is incorporated into RL training as a regularization term. We introduce a closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS environments. Compared to IL-based methods, RAD achieves stronger performance in most closed-loop metrics, especially 3x lower collision rate. Abundant closed-loop results are presented at https://hgao-cv.github.io/RAD.

RAD: Обучение сквозной политики вождения с использованием крупномасштабного обучения с подкреплением на основе 3DGS

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

Аннотация

Support