RAD: Het trainen van een end-to-end rijbeleid via grootschalige 3DGS-gebaseerde reinforcement learning
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
February 18, 2025
Auteurs: Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Samenvatting
Bestaande end-to-end algoritmen voor autonoom rijden (AD) volgen doorgaans het
Imitation Learning (IL) paradigma, dat uitdagingen kent zoals causale verwarring
en de open-loop kloof. In dit werk stellen we een 3DGS-gebaseerd
closed-loop Reinforcement Learning (RL) trainingsparadigma op. Door gebruik te
maken van 3DGS-technieken construeren we een fotorealistische digitale replica
van de echte fysieke wereld, waardoor het AD-beleid uitgebreid de
toestandsruimte kan verkennen en kan leren omgaan met out-of-distribution
scenario's door middel van grootschalige trial en error. Om de veiligheid te
vergroten, ontwerpen we gespecialiseerde beloningen die het beleid begeleiden
om effectief te reageren op veiligheidskritieke gebeurtenissen en om
causale relaties in de echte wereld te begrijpen. Voor een betere afstemming
op menselijk rijgedrag wordt IL geïntegreerd in de RL-training als een
regularisatieterm. We introduceren een closed-loop evaluatiebenchmark bestaande
uit diverse, voorheen onbekende 3DGS-omgevingen. In vergelijking met
IL-gebaseerde methoden behaalt RAD betere prestaties op de meeste closed-loop
metrieken, met name een 3x lagere botsingsfrequentie. Uitgebreide closed-loop
resultaten zijn te vinden op https://hgao-cv.github.io/RAD.
English
Existing end-to-end autonomous driving (AD) algorithms typically follow the
Imitation Learning (IL) paradigm, which faces challenges such as causal
confusion and the open-loop gap. In this work, we establish a 3DGS-based
closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS
techniques, we construct a photorealistic digital replica of the real physical
world, enabling the AD policy to extensively explore the state space and learn
to handle out-of-distribution scenarios through large-scale trial and error. To
enhance safety, we design specialized rewards that guide the policy to
effectively respond to safety-critical events and understand real-world causal
relationships. For better alignment with human driving behavior, IL is
incorporated into RL training as a regularization term. We introduce a
closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS
environments. Compared to IL-based methods, RAD achieves stronger performance
in most closed-loop metrics, especially 3x lower collision rate. Abundant
closed-loop results are presented at https://hgao-cv.github.io/RAD.Summary
AI-Generated Summary