Modelli Generativi Basati su Diffusione per la Predizione dell'Occupazione 3D nella Guida Autonoma
Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving
May 29, 2025
Autori: Yunshen Wang, Yicheng Liu, Tianyuan Yuan, Yucheng Mao, Yingshi Liang, Xiuyu Yang, Honggang Zhang, Hang Zhao
cs.AI
Abstract
Prevedere accuratamente griglie di occupazione 3D da input visivi è fondamentale per la guida autonoma, ma i metodi discriminativi attuali faticano a gestire dati rumorosi, osservazioni incomplete e le strutture complesse intrinseche delle scene 3D. In questo lavoro, riformuliamo la previsione di occupazione 3D come un compito di modellazione generativa utilizzando modelli di diffusione, che apprendono la distribuzione sottostante dei dati e incorporano prior di scene 3D. Questo approccio migliora la coerenza delle previsioni, la robustezza al rumore e gestisce meglio le complessità delle strutture spaziali 3D. I nostri esperimenti estesi dimostrano che i modelli generativi basati su diffusione superano gli approcci discriminativi all'avanguardia, fornendo previsioni di occupazione più realistiche e accurate, specialmente nelle regioni occluse o a bassa visibilità. Inoltre, le previsioni migliorate apportano benefici significativi ai compiti di pianificazione a valle, evidenziando i vantaggi pratici del nostro metodo per applicazioni reali di guida autonoma.
English
Accurately predicting 3D occupancy grids from visual inputs is critical for
autonomous driving, but current discriminative methods struggle with noisy
data, incomplete observations, and the complex structures inherent in 3D
scenes. In this work, we reframe 3D occupancy prediction as a generative
modeling task using diffusion models, which learn the underlying data
distribution and incorporate 3D scene priors. This approach enhances prediction
consistency, noise robustness, and better handles the intricacies of 3D spatial
structures. Our extensive experiments show that diffusion-based generative
models outperform state-of-the-art discriminative approaches, delivering more
realistic and accurate occupancy predictions, especially in occluded or
low-visibility regions. Moreover, the improved predictions significantly
benefit downstream planning tasks, highlighting the practical advantages of our
method for real-world autonomous driving applications.