RAD: Addestramento di una Politica di Guida End-to-End tramite Apprendimento per Rinforzo su Larga Scala basato su 3DGS
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
February 18, 2025
Autori: Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang
cs.AI
Abstract
Gli algoritmi esistenti di guida autonoma end-to-end (AD) seguono tipicamente il paradigma dell'Apprendimento per Imitazione (IL), che affronta sfide come la confusione causale e il divario in open-loop. In questo lavoro, stabiliamo un paradigma di addestramento basato su Apprendimento per Rinforzo (RL) in closed-loop, fondato su tecniche 3DGS. Sfruttando le tecniche 3DGS, costruiamo una replica digitale fotorealistica del mondo fisico reale, consentendo alla politica AD di esplorare estensivamente lo spazio degli stati e di imparare a gestire scenari fuori distribuzione attraverso un ampio processo di prova ed errore. Per migliorare la sicurezza, progettiamo ricompense specializzate che guidano la politica a rispondere efficacemente a eventi critici per la sicurezza e a comprendere le relazioni causali del mondo reale. Per un migliore allineamento con il comportamento di guida umana, l'IL viene incorporato nell'addestramento RL come termine di regolarizzazione. Introduciamo un benchmark di valutazione in closed-loop composto da ambienti 3DGS diversificati e mai visti prima. Rispetto ai metodi basati su IL, RAD raggiunge prestazioni più solide nella maggior parte delle metriche in closed-loop, in particolare con un tasso di collisione 3 volte inferiore. Risultati abbondanti in closed-loop sono presentati su https://hgao-cv.github.io/RAD.
English
Existing end-to-end autonomous driving (AD) algorithms typically follow the
Imitation Learning (IL) paradigm, which faces challenges such as causal
confusion and the open-loop gap. In this work, we establish a 3DGS-based
closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS
techniques, we construct a photorealistic digital replica of the real physical
world, enabling the AD policy to extensively explore the state space and learn
to handle out-of-distribution scenarios through large-scale trial and error. To
enhance safety, we design specialized rewards that guide the policy to
effectively respond to safety-critical events and understand real-world causal
relationships. For better alignment with human driving behavior, IL is
incorporated into RL training as a regularization term. We introduce a
closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS
environments. Compared to IL-based methods, RAD achieves stronger performance
in most closed-loop metrics, especially 3x lower collision rate. Abundant
closed-loop results are presented at https://hgao-cv.github.io/RAD.