RAD: Entrenamiento de una Política de Conducción de Extremo a Extremo mediante Aprendizaje por Refuerzo a Gran Escala Basado en 3DGS
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
February 18, 2025
Autores: Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Resumen
Los algoritmos existentes de conducción autónoma (AD) de extremo a extremo suelen seguir el paradigma de Aprendizaje por Imitación (IL), el cual enfrenta desafíos como la confusión causal y la brecha de bucle abierto. En este trabajo, establecemos un paradigma de entrenamiento de Aprendizaje por Refuerzo (RL) basado en 3DGS en bucle cerrado. Al aprovechar técnicas de 3DGS, construimos una réplica digital fotorrealista del mundo físico real, permitiendo que la política de AD explore extensamente el espacio de estados y aprenda a manejar escenarios fuera de distribución a través de prueba y error a gran escala. Para mejorar la seguridad, diseñamos recompensas especializadas que guían a la política para responder efectivamente a eventos críticos de seguridad y comprender las relaciones causales del mundo real. Para una mejor alineación con el comportamiento humano de conducción, el IL se incorpora al entrenamiento de RL como un término de regularización. Introducimos un punto de referencia de evaluación en bucle cerrado que consiste en diversos entornos 3DGS previamente no vistos. En comparación con los métodos basados en IL, RAD logra un rendimiento más fuerte en la mayoría de las métricas de bucle cerrado, especialmente con una tasa de colisiones 3 veces menor. Se presentan abundantes resultados en bucle cerrado en https://hgao-cv.github.io/RAD.
English
Existing end-to-end autonomous driving (AD) algorithms typically follow the
Imitation Learning (IL) paradigm, which faces challenges such as causal
confusion and the open-loop gap. In this work, we establish a 3DGS-based
closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS
techniques, we construct a photorealistic digital replica of the real physical
world, enabling the AD policy to extensively explore the state space and learn
to handle out-of-distribution scenarios through large-scale trial and error. To
enhance safety, we design specialized rewards that guide the policy to
effectively respond to safety-critical events and understand real-world causal
relationships. For better alignment with human driving behavior, IL is
incorporated into RL training as a regularization term. We introduce a
closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS
environments. Compared to IL-based methods, RAD achieves stronger performance
in most closed-loop metrics, especially 3x lower collision rate. Abundant
closed-loop results are presented at https://hgao-cv.github.io/RAD.Summary
AI-Generated Summary