ChatPaper.aiChatPaper

RAD: Het trainen van een end-to-end rijbeleid via grootschalige 3DGS-gebaseerde reinforcement learning

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

February 18, 2025
Auteurs: Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI

Samenvatting

Bestaande end-to-end algoritmen voor autonoom rijden (AD) volgen doorgaans het Imitation Learning (IL) paradigma, dat uitdagingen kent zoals causale verwarring en de open-loop kloof. In dit werk stellen we een 3DGS-gebaseerd closed-loop Reinforcement Learning (RL) trainingsparadigma op. Door gebruik te maken van 3DGS-technieken construeren we een fotorealistische digitale replica van de echte fysieke wereld, waardoor het AD-beleid uitgebreid de toestandsruimte kan verkennen en kan leren omgaan met out-of-distribution scenario's door middel van grootschalige trial en error. Om de veiligheid te vergroten, ontwerpen we gespecialiseerde beloningen die het beleid begeleiden om effectief te reageren op veiligheidskritieke gebeurtenissen en om causale relaties in de echte wereld te begrijpen. Voor een betere afstemming op menselijk rijgedrag wordt IL geïntegreerd in de RL-training als een regularisatieterm. We introduceren een closed-loop evaluatiebenchmark bestaande uit diverse, voorheen onbekende 3DGS-omgevingen. In vergelijking met IL-gebaseerde methoden behaalt RAD betere prestaties op de meeste closed-loop metrieken, met name een 3x lagere botsingsfrequentie. Uitgebreide closed-loop resultaten zijn te vinden op https://hgao-cv.github.io/RAD.
English
Existing end-to-end autonomous driving (AD) algorithms typically follow the Imitation Learning (IL) paradigm, which faces challenges such as causal confusion and the open-loop gap. In this work, we establish a 3DGS-based closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS techniques, we construct a photorealistic digital replica of the real physical world, enabling the AD policy to extensively explore the state space and learn to handle out-of-distribution scenarios through large-scale trial and error. To enhance safety, we design specialized rewards that guide the policy to effectively respond to safety-critical events and understand real-world causal relationships. For better alignment with human driving behavior, IL is incorporated into RL training as a regularization term. We introduce a closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS environments. Compared to IL-based methods, RAD achieves stronger performance in most closed-loop metrics, especially 3x lower collision rate. Abundant closed-loop results are presented at https://hgao-cv.github.io/RAD.

Summary

AI-Generated Summary

PDF402February 20, 2025