RAD : Entraînement d'une politique de conduite de bout en bout via un apprentissage par renforcement à grande échelle basé sur 3DGS

papers.abstract

Les algorithmes existants de conduite autonome (AD) de bout en bout suivent généralement le paradigme de l'apprentissage par imitation (IL), qui fait face à des défis tels que la confusion causale et l'écart en boucle ouverte. Dans ce travail, nous établissons un paradigme d'entraînement en apprentissage par renforcement (RL) en boucle fermée basé sur 3DGS. En exploitant les techniques 3DGS, nous construisons une réplique numérique photoréaliste du monde physique réel, permettant à la politique AD d'explorer intensivement l'espace d'états et d'apprendre à gérer des scénarios hors distribution grâce à des essais et erreurs à grande échelle. Pour renforcer la sécurité, nous concevons des récompenses spécialisées qui guident la politique à répondre efficacement aux événements critiques pour la sécurité et à comprendre les relations causales du monde réel. Pour une meilleure adéquation avec le comportement de conduite humaine, l'IL est intégré à l'entraînement RL en tant que terme de régularisation. Nous introduisons un benchmark d'évaluation en boucle fermée composé de divers environnements 3DGS inédits. Par rapport aux méthodes basées sur l'IL, RAD obtient de meilleures performances sur la plupart des métriques en boucle fermée, notamment un taux de collision 3 fois plus faible. Des résultats abondants en boucle fermée sont présentés sur https://hgao-cv.github.io/RAD.

English

Existing end-to-end autonomous driving (AD) algorithms typically follow the Imitation Learning (IL) paradigm, which faces challenges such as causal confusion and the open-loop gap. In this work, we establish a 3DGS-based closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS techniques, we construct a photorealistic digital replica of the real physical world, enabling the AD policy to extensively explore the state space and learn to handle out-of-distribution scenarios through large-scale trial and error. To enhance safety, we design specialized rewards that guide the policy to effectively respond to safety-critical events and understand real-world causal relationships. For better alignment with human driving behavior, IL is incorporated into RL training as a regularization term. We introduce a closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS environments. Compared to IL-based methods, RAD achieves stronger performance in most closed-loop metrics, especially 3x lower collision rate. Abundant closed-loop results are presented at https://hgao-cv.github.io/RAD.

RAD : Entraînement d'une politique de conduite de bout en bout via un apprentissage par renforcement à grande échelle basé sur 3DGS

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

papers.abstract

Support