Distillation de modèles de diffusion pour une complétion efficace de scène LiDAR 3D
Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion
December 4, 2024
Auteurs: Shengyuan Zhang, An Zhao, Ling Yang, Zejian Li, Chenye Meng, Haoran Xu, Tianrun Chen, AnYang Wei, Perry Pengyun GU, Lingyun Sun
cs.AI
Résumé
Les modèles de diffusion ont été appliqués à l'achèvement de scènes LiDAR 3D en raison de leur forte stabilité d'entraînement et de leur haute qualité d'achèvement. Cependant, la lenteur de l'échantillonnage limite l'application pratique des modèles d'achèvement de scènes basés sur la diffusion, car les véhicules autonomes nécessitent une perception efficace des environnements environnants. Cet article propose une nouvelle méthode de distillation adaptée aux modèles d'achèvement de scènes LiDAR 3D, appelée ScoreLiDAR, qui permet d'obtenir un achèvement de scène efficace mais de haute qualité. ScoreLiDAR permet au modèle distillé d'échantillonner en significativement moins d'étapes après la distillation. Pour améliorer la qualité de l'achèvement, nous introduisons également une nouvelle Perte Structurale, qui encourage le modèle distillé à capturer la structure géométrique de la scène LiDAR 3D. La perte contient un terme par scène contraignant la structure holistique et un terme par point contraignant les points de repère clés et leur configuration relative. Des expériences approfondies démontrent que ScoreLiDAR accélère significativement le temps d'achèvement de 30,55 à 5,37 secondes par image (>5 fois) sur SemanticKITTI et atteint des performances supérieures par rapport aux modèles d'achèvement de scènes LiDAR 3D de pointe. Notre code est publiquement disponible sur https://github.com/happyw1nd/ScoreLiDAR.
English
Diffusion models have been applied to 3D LiDAR scene completion due to their
strong training stability and high completion quality. However, the slow
sampling speed limits the practical application of diffusion-based scene
completion models since autonomous vehicles require an efficient perception of
surrounding environments. This paper proposes a novel distillation method
tailored for 3D LiDAR scene completion models, dubbed ScoreLiDAR,
which achieves efficient yet high-quality scene completion. ScoreLiDAR enables
the distilled model to sample in significantly fewer steps after distillation.
To improve completion quality, we also introduce a novel Structural
Loss, which encourages the distilled model to capture the geometric structure
of the 3D LiDAR scene. The loss contains a scene-wise term constraining the
holistic structure and a point-wise term constraining the key landmark points
and their relative configuration. Extensive experiments demonstrate that
ScoreLiDAR significantly accelerates the completion time from 30.55 to 5.37
seconds per frame (>5times) on SemanticKITTI and achieves superior
performance compared to state-of-the-art 3D LiDAR scene completion models. Our
code is publicly available at https://github.com/happyw1nd/ScoreLiDAR.Summary
AI-Generated Summary