RAD: Treinando uma Política de Condução End-to-End por meio de Aprendizado por Reforço em Larga Escala Baseado em 3DGS
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
February 18, 2025
Autores: Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Resumo
Os algoritmos existentes de direção autônoma (AD) de ponta a ponta geralmente seguem o paradigma de Aprendizado por Imitação (IL), que enfrenta desafios como confusão causal e a lacuna de circuito aberto. Neste trabalho, estabelecemos um paradigma de treinamento de Aprendizado por Reforço (RL) em circuito fechado baseado em 3DGS. Ao aproveitar técnicas de 3DGS, construímos uma réplica digital fotorrealista do mundo físico real, permitindo que a política de AD explore extensivamente o espaço de estados e aprenda a lidar com cenários fora da distribuição por meio de tentativa e erro em larga escala. Para aumentar a segurança, projetamos recompensas especializadas que orientam a política a responder efetivamente a eventos críticos de segurança e a compreender relações causais do mundo real. Para um melhor alinhamento com o comportamento humano de direção, o IL é incorporado ao treinamento de RL como um termo de regularização. Introduzimos um benchmark de avaliação em circuito fechado composto por diversos ambientes 3DGS previamente desconhecidos. Em comparação com métodos baseados em IL, o RAD alcança um desempenho superior na maioria das métricas de circuito fechado, especialmente com uma taxa de colisão 3 vezes menor. Resultados abundantes em circuito fechado são apresentados em https://hgao-cv.github.io/RAD.
English
Existing end-to-end autonomous driving (AD) algorithms typically follow the
Imitation Learning (IL) paradigm, which faces challenges such as causal
confusion and the open-loop gap. In this work, we establish a 3DGS-based
closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS
techniques, we construct a photorealistic digital replica of the real physical
world, enabling the AD policy to extensively explore the state space and learn
to handle out-of-distribution scenarios through large-scale trial and error. To
enhance safety, we design specialized rewards that guide the policy to
effectively respond to safety-critical events and understand real-world causal
relationships. For better alignment with human driving behavior, IL is
incorporated into RL training as a regularization term. We introduce a
closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS
environments. Compared to IL-based methods, RAD achieves stronger performance
in most closed-loop metrics, especially 3x lower collision rate. Abundant
closed-loop results are presented at https://hgao-cv.github.io/RAD.Summary
AI-Generated Summary