RAD: Обучение сквозной политики вождения с использованием крупномасштабного обучения с подкреплением на основе 3DGS
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
February 18, 2025
Авторы: Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Аннотация
Существующие алгоритмы сквозного автономного вождения (AD) обычно следуют парадигме обучения с подражанием (Imitation Learning, IL), которая сталкивается с такими проблемами, как причинно-следственная путаница и разрыв в открытом цикле. В данной работе мы предлагаем новую парадигму обучения с подкреплением (Reinforcement Learning, RL) в замкнутом цикле, основанную на 3DGS-технологиях. Используя методы 3DGS, мы создаем фотореалистичную цифровую копию реального физического мира, что позволяет политике AD активно исследовать пространство состояний и обучаться справляться с ситуациями, выходящими за пределы распределения, через масштабные пробы и ошибки. Для повышения безопасности мы разрабатываем специализированные вознаграждения, которые направляют политику на эффективное реагирование на критические события и понимание причинно-следственных связей в реальном мире. Для лучшего соответствия поведению человека за рулем, IL интегрируется в обучение RL в качестве регуляризатора. Мы представляем эталонный тест для оценки в замкнутом цикле, состоящий из разнообразных, ранее не встречавшихся 3DGS-сред. По сравнению с методами на основе IL, RAD демонстрирует более высокую производительность по большинству метрик замкнутого цикла, особенно с трехкратным снижением частоты столкновений. Обширные результаты тестирования в замкнутом цикле представлены на https://hgao-cv.github.io/RAD.
English
Existing end-to-end autonomous driving (AD) algorithms typically follow the
Imitation Learning (IL) paradigm, which faces challenges such as causal
confusion and the open-loop gap. In this work, we establish a 3DGS-based
closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS
techniques, we construct a photorealistic digital replica of the real physical
world, enabling the AD policy to extensively explore the state space and learn
to handle out-of-distribution scenarios through large-scale trial and error. To
enhance safety, we design specialized rewards that guide the policy to
effectively respond to safety-critical events and understand real-world causal
relationships. For better alignment with human driving behavior, IL is
incorporated into RL training as a regularization term. We introduce a
closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS
environments. Compared to IL-based methods, RAD achieves stronger performance
in most closed-loop metrics, especially 3x lower collision rate. Abundant
closed-loop results are presented at https://hgao-cv.github.io/RAD.Summary
AI-Generated Summary