Distillation de modèles de diffusion pour une complétion efficace de scène LiDAR 3D

papers.abstract

Les modèles de diffusion ont été appliqués à l'achèvement de scènes LiDAR 3D en raison de leur forte stabilité d'entraînement et de leur haute qualité d'achèvement. Cependant, la lenteur de l'échantillonnage limite l'application pratique des modèles d'achèvement de scènes basés sur la diffusion, car les véhicules autonomes nécessitent une perception efficace des environnements environnants. Cet article propose une nouvelle méthode de distillation adaptée aux modèles d'achèvement de scènes LiDAR 3D, appelée ScoreLiDAR, qui permet d'obtenir un achèvement de scène efficace mais de haute qualité. ScoreLiDAR permet au modèle distillé d'échantillonner en significativement moins d'étapes après la distillation. Pour améliorer la qualité de l'achèvement, nous introduisons également une nouvelle Perte Structurale, qui encourage le modèle distillé à capturer la structure géométrique de la scène LiDAR 3D. La perte contient un terme par scène contraignant la structure holistique et un terme par point contraignant les points de repère clés et leur configuration relative. Des expériences approfondies démontrent que ScoreLiDAR accélère significativement le temps d'achèvement de 30,55 à 5,37 secondes par image (>5 fois) sur SemanticKITTI et atteint des performances supérieures par rapport aux modèles d'achèvement de scènes LiDAR 3D de pointe. Notre code est publiquement disponible sur https://github.com/happyw1nd/ScoreLiDAR.

English

Diffusion models have been applied to 3D LiDAR scene completion due to their strong training stability and high completion quality. However, the slow sampling speed limits the practical application of diffusion-based scene completion models since autonomous vehicles require an efficient perception of surrounding environments. This paper proposes a novel distillation method tailored for 3D LiDAR scene completion models, dubbed ScoreLiDAR, which achieves efficient yet high-quality scene completion. ScoreLiDAR enables the distilled model to sample in significantly fewer steps after distillation. To improve completion quality, we also introduce a novel Structural Loss, which encourages the distilled model to capture the geometric structure of the 3D LiDAR scene. The loss contains a scene-wise term constraining the holistic structure and a point-wise term constraining the key landmark points and their relative configuration. Extensive experiments demonstrate that ScoreLiDAR significantly accelerates the completion time from 30.55 to 5.37 seconds per frame (>5times) on SemanticKITTI and achieves superior performance compared to state-of-the-art 3D LiDAR scene completion models. Our code is publicly available at https://github.com/happyw1nd/ScoreLiDAR.

Distillation de modèles de diffusion pour une complétion efficace de scène LiDAR 3D

Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion

papers.abstract

Support