RAD : Entraînement d'une politique de conduite de bout en bout via un apprentissage par renforcement à grande échelle basé sur 3DGS
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
February 18, 2025
Auteurs: Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Résumé
Les algorithmes existants de conduite autonome (AD) de bout en bout suivent généralement le paradigme de l'apprentissage par imitation (IL), qui fait face à des défis tels que la confusion causale et l'écart en boucle ouverte. Dans ce travail, nous établissons un paradigme d'entraînement en apprentissage par renforcement (RL) en boucle fermée basé sur 3DGS. En exploitant les techniques 3DGS, nous construisons une réplique numérique photoréaliste du monde physique réel, permettant à la politique AD d'explorer intensivement l'espace d'états et d'apprendre à gérer des scénarios hors distribution grâce à des essais et erreurs à grande échelle. Pour renforcer la sécurité, nous concevons des récompenses spécialisées qui guident la politique à répondre efficacement aux événements critiques pour la sécurité et à comprendre les relations causales du monde réel. Pour une meilleure adéquation avec le comportement de conduite humaine, l'IL est intégré à l'entraînement RL en tant que terme de régularisation. Nous introduisons un benchmark d'évaluation en boucle fermée composé de divers environnements 3DGS inédits. Par rapport aux méthodes basées sur l'IL, RAD obtient de meilleures performances sur la plupart des métriques en boucle fermée, notamment un taux de collision 3 fois plus faible. Des résultats abondants en boucle fermée sont présentés sur https://hgao-cv.github.io/RAD.
English
Existing end-to-end autonomous driving (AD) algorithms typically follow the
Imitation Learning (IL) paradigm, which faces challenges such as causal
confusion and the open-loop gap. In this work, we establish a 3DGS-based
closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS
techniques, we construct a photorealistic digital replica of the real physical
world, enabling the AD policy to extensively explore the state space and learn
to handle out-of-distribution scenarios through large-scale trial and error. To
enhance safety, we design specialized rewards that guide the policy to
effectively respond to safety-critical events and understand real-world causal
relationships. For better alignment with human driving behavior, IL is
incorporated into RL training as a regularization term. We introduce a
closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS
environments. Compared to IL-based methods, RAD achieves stronger performance
in most closed-loop metrics, especially 3x lower collision rate. Abundant
closed-loop results are presented at https://hgao-cv.github.io/RAD.Summary
AI-Generated Summary