Modèles génératifs basés sur la diffusion pour la prédiction d'occupation 3D dans la conduite autonome
Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving
May 29, 2025
Auteurs: Yunshen Wang, Yicheng Liu, Tianyuan Yuan, Yucheng Mao, Yingshi Liang, Xiuyu Yang, Honggang Zhang, Hang Zhao
cs.AI
Résumé
Prédire avec précision des grilles d'occupation 3D à partir d'entrées visuelles est crucial pour la conduite autonome, mais les méthodes discriminatives actuelles peinent à gérer les données bruitées, les observations incomplètes et les structures complexes inhérentes aux scènes 3D. Dans ce travail, nous reformulons la prédiction d'occupation 3D comme une tâche de modélisation générative en utilisant des modèles de diffusion, qui apprennent la distribution sous-jacente des données et intègrent des a priori de scènes 3D. Cette approche améliore la cohérence des prédictions, la robustesse au bruit et permet de mieux gérer les subtilités des structures spatiales 3D. Nos expériences approfondies montrent que les modèles génératifs basés sur la diffusion surpassent les approches discriminatives de pointe, fournissant des prédictions d'occupation plus réalistes et précises, en particulier dans les régions occluses ou à faible visibilité. De plus, les prédictions améliorées profitent significativement aux tâches de planification en aval, mettant en évidence les avantages pratiques de notre méthode pour les applications réelles de conduite autonome.
English
Accurately predicting 3D occupancy grids from visual inputs is critical for
autonomous driving, but current discriminative methods struggle with noisy
data, incomplete observations, and the complex structures inherent in 3D
scenes. In this work, we reframe 3D occupancy prediction as a generative
modeling task using diffusion models, which learn the underlying data
distribution and incorporate 3D scene priors. This approach enhances prediction
consistency, noise robustness, and better handles the intricacies of 3D spatial
structures. Our extensive experiments show that diffusion-based generative
models outperform state-of-the-art discriminative approaches, delivering more
realistic and accurate occupancy predictions, especially in occluded or
low-visibility regions. Moreover, the improved predictions significantly
benefit downstream planning tasks, highlighting the practical advantages of our
method for real-world autonomous driving applications.