Diffusionsbasierte generative Modelle für 3D-Okkupanzvorhersage im autonomen Fahren
Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving
May 29, 2025
Autoren: Yunshen Wang, Yicheng Liu, Tianyuan Yuan, Yucheng Mao, Yingshi Liang, Xiuyu Yang, Honggang Zhang, Hang Zhao
cs.AI
Zusammenfassung
Die präzise Vorhersage von 3D-Okkupanzgittern aus visuellen Eingaben ist entscheidend für das autonome Fahren, doch aktuelle diskriminative Methoden kämpfen mit verrauschten Daten, unvollständigen Beobachtungen und den komplexen Strukturen, die in 3D-Szenen inhärent sind. In dieser Arbeit formulieren wir die 3D-Okkupanzvorhersage als eine generative Modellierungsaufgabe unter Verwendung von Diffusionsmodellen, die die zugrunde liegende Datenverteilung erlernen und 3D-Szenenprioritäten einbeziehen. Dieser Ansatz verbessert die Vorhersagekonsistenz, die Robustheit gegenüber Rauschen und bewältigt besser die Komplexität von 3D-Raumstrukturen. Unsere umfangreichen Experimente zeigen, dass generative Diffusionsmodelle state-of-the-art diskriminative Ansätze übertreffen und realistischere und genauere Okkupanzvorhersagen liefern, insbesondere in verdeckten oder schlecht sichtbaren Bereichen. Darüber hinaus profitieren nachgelagerte Planungsaufgaben erheblich von den verbesserten Vorhersagen, was die praktischen Vorteile unserer Methode für reale Anwendungen des autonomen Fahrens unterstreicht.
English
Accurately predicting 3D occupancy grids from visual inputs is critical for
autonomous driving, but current discriminative methods struggle with noisy
data, incomplete observations, and the complex structures inherent in 3D
scenes. In this work, we reframe 3D occupancy prediction as a generative
modeling task using diffusion models, which learn the underlying data
distribution and incorporate 3D scene priors. This approach enhances prediction
consistency, noise robustness, and better handles the intricacies of 3D spatial
structures. Our extensive experiments show that diffusion-based generative
models outperform state-of-the-art discriminative approaches, delivering more
realistic and accurate occupancy predictions, especially in occluded or
low-visibility regions. Moreover, the improved predictions significantly
benefit downstream planning tasks, highlighting the practical advantages of our
method for real-world autonomous driving applications.