RAD: Training einer End-to-End-Fahrstrategie durch groß angelegtes 3DGS-basiertes Reinforcement Learning
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
February 18, 2025
Autoren: Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Zusammenfassung
Bestehende End-to-End-Algorithmen für autonomes Fahren (AD) folgen in der Regel dem Imitation Learning (IL)-Paradigma, das mit Herausforderungen wie kausaler Verwirrung und der Open-Loop-Lücke konfrontiert ist. In dieser Arbeit etablieren wir ein auf 3DGS basierendes Closed-Loop Reinforcement Learning (RL)-Trainingsparadigma. Durch die Nutzung von 3DGS-Techniken konstruieren wir eine fotorealistische digitale Nachbildung der realen physischen Welt, wodurch die AD-Politik den Zustandsraum umfassend erkunden und den Umgang mit Out-of-Distribution-Szenarien durch groß angelegtes Ausprobieren und Fehlermachen erlernen kann. Um die Sicherheit zu erhöhen, entwerfen wir spezialisierte Belohnungen, die die Politik dazu anleiten, effektiv auf sicherheitskritische Ereignisse zu reagieren und reale kausale Zusammenhänge zu verstehen. Für eine bessere Übereinstimmung mit menschlichem Fahrverhalten wird IL als Regularisierungsterm in das RL-Training integriert. Wir führen ein Closed-Loop-Evaluierungsbenchmark ein, das aus vielfältigen, zuvor unbekannten 3DGS-Umgebungen besteht. Im Vergleich zu IL-basierten Methoden erzielt RAD eine stärkere Leistung in den meisten Closed-Loop-Metriken, insbesondere eine dreimal niedrigere Kollisionsrate. Umfangreiche Closed-Loop-Ergebnisse werden unter https://hgao-cv.github.io/RAD präsentiert.
English
Existing end-to-end autonomous driving (AD) algorithms typically follow the
Imitation Learning (IL) paradigm, which faces challenges such as causal
confusion and the open-loop gap. In this work, we establish a 3DGS-based
closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS
techniques, we construct a photorealistic digital replica of the real physical
world, enabling the AD policy to extensively explore the state space and learn
to handle out-of-distribution scenarios through large-scale trial and error. To
enhance safety, we design specialized rewards that guide the policy to
effectively respond to safety-critical events and understand real-world causal
relationships. For better alignment with human driving behavior, IL is
incorporated into RL training as a regularization term. We introduce a
closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS
environments. Compared to IL-based methods, RAD achieves stronger performance
in most closed-loop metrics, especially 3x lower collision rate. Abundant
closed-loop results are presented at https://hgao-cv.github.io/RAD.Summary
AI-Generated Summary