Диффузионные генеративные модели для прогнозирования 3D-заполнения в автономном вождении
Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving
May 29, 2025
Авторы: Yunshen Wang, Yicheng Liu, Tianyuan Yuan, Yucheng Mao, Yingshi Liang, Xiuyu Yang, Honggang Zhang, Hang Zhao
cs.AI
Аннотация
Точное предсказание трехмерных оккупационных сеток на основе визуальных данных имеет решающее значение для автономного вождения, однако современные дискриминативные методы сталкиваются с трудностями при работе с зашумленными данными, неполными наблюдениями и сложными структурами, присущими трехмерным сценам. В данной работе мы переосмысливаем задачу предсказания 3D-оккупации как задачу генеративного моделирования с использованием диффузионных моделей, которые изучают базовое распределение данных и учитывают априорные знания о 3D-сценах. Такой подход повышает согласованность предсказаний, устойчивость к шуму и лучше справляется со сложностями пространственных структур в 3D. Наши обширные эксперименты показывают, что генеративные модели на основе диффузии превосходят современные дискриминативные подходы, обеспечивая более реалистичные и точные предсказания оккупации, особенно в затененных или плохо видимых областях. Более того, улучшенные предсказания значительно повышают эффективность последующих задач планирования, что подчеркивает практические преимущества нашего метода для реальных приложений автономного вождения.
English
Accurately predicting 3D occupancy grids from visual inputs is critical for
autonomous driving, but current discriminative methods struggle with noisy
data, incomplete observations, and the complex structures inherent in 3D
scenes. In this work, we reframe 3D occupancy prediction as a generative
modeling task using diffusion models, which learn the underlying data
distribution and incorporate 3D scene priors. This approach enhances prediction
consistency, noise robustness, and better handles the intricacies of 3D spatial
structures. Our extensive experiments show that diffusion-based generative
models outperform state-of-the-art discriminative approaches, delivering more
realistic and accurate occupancy predictions, especially in occluded or
low-visibility regions. Moreover, the improved predictions significantly
benefit downstream planning tasks, highlighting the practical advantages of our
method for real-world autonomous driving applications.