Modelos Generativos Basados en Difusión para la Predicción de Ocupación 3D en Conducción Autónoma
Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving
May 29, 2025
Autores: Yunshen Wang, Yicheng Liu, Tianyuan Yuan, Yucheng Mao, Yingshi Liang, Xiuyu Yang, Honggang Zhang, Hang Zhao
cs.AI
Resumen
Predecir con precisión mallas de ocupación 3D a partir de entradas visuales es crucial para la conducción autónoma, pero los métodos discriminativos actuales tienen dificultades con datos ruidosos, observaciones incompletas y las estructuras complejas inherentes a las escenas 3D. En este trabajo, reformulamos la predicción de ocupación 3D como una tarea de modelado generativo utilizando modelos de difusión, los cuales aprenden la distribución subyacente de los datos e incorporan conocimientos previos de escenas 3D. Este enfoque mejora la consistencia de las predicciones, la robustez frente al ruido y maneja mejor las complejidades de las estructuras espaciales 3D. Nuestros extensos experimentos muestran que los modelos generativos basados en difusión superan a los enfoques discriminativos de vanguardia, ofreciendo predicciones de ocupación más realistas y precisas, especialmente en regiones ocluidas o con baja visibilidad. Además, las predicciones mejoradas benefician significativamente las tareas de planificación posteriores, destacando las ventajas prácticas de nuestro método para aplicaciones de conducción autónoma en el mundo real.
English
Accurately predicting 3D occupancy grids from visual inputs is critical for
autonomous driving, but current discriminative methods struggle with noisy
data, incomplete observations, and the complex structures inherent in 3D
scenes. In this work, we reframe 3D occupancy prediction as a generative
modeling task using diffusion models, which learn the underlying data
distribution and incorporate 3D scene priors. This approach enhances prediction
consistency, noise robustness, and better handles the intricacies of 3D spatial
structures. Our extensive experiments show that diffusion-based generative
models outperform state-of-the-art discriminative approaches, delivering more
realistic and accurate occupancy predictions, especially in occluded or
low-visibility regions. Moreover, the improved predictions significantly
benefit downstream planning tasks, highlighting the practical advantages of our
method for real-world autonomous driving applications.