Destilando modelos de difusión para completar escenas 3D de LiDAR de manera eficiente
Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion
December 4, 2024
Autores: Shengyuan Zhang, An Zhao, Ling Yang, Zejian Li, Chenye Meng, Haoran Xu, Tianrun Chen, AnYang Wei, Perry Pengyun GU, Lingyun Sun
cs.AI
Resumen
Los modelos de difusión se han aplicado a la completación de escenas LiDAR 3D debido a su sólida estabilidad de entrenamiento y alta calidad de completación. Sin embargo, la lenta velocidad de muestreo limita la aplicación práctica de los modelos de completación de escenas basados en difusión, ya que los vehículos autónomos requieren una percepción eficiente de los entornos circundantes. En este documento se propone un novedoso método de destilación diseñado para modelos de completación de escenas LiDAR 3D, denominado ScoreLiDAR, que logra una completación de escenas eficiente pero de alta calidad. ScoreLiDAR permite que el modelo destilado realice muestreos en significativamente menos pasos después de la destilación. Para mejorar la calidad de la completación, también introducimos una nueva Pérdida Estructural, que anima al modelo destilado a capturar la estructura geométrica de la escena LiDAR 3D. La pérdida contiene un término a nivel de escena que restringe la estructura holística y un término a nivel de punto que restringe los puntos de referencia clave y su configuración relativa. Experimentos extensos demuestran que ScoreLiDAR acelera significativamente el tiempo de completación de 30.55 a 5.37 segundos por cuadro (>5 veces) en SemanticKITTI y logra un rendimiento superior en comparación con los modelos de completación de escenas LiDAR 3D de última generación. Nuestro código está disponible públicamente en https://github.com/happyw1nd/ScoreLiDAR.
English
Diffusion models have been applied to 3D LiDAR scene completion due to their
strong training stability and high completion quality. However, the slow
sampling speed limits the practical application of diffusion-based scene
completion models since autonomous vehicles require an efficient perception of
surrounding environments. This paper proposes a novel distillation method
tailored for 3D LiDAR scene completion models, dubbed ScoreLiDAR,
which achieves efficient yet high-quality scene completion. ScoreLiDAR enables
the distilled model to sample in significantly fewer steps after distillation.
To improve completion quality, we also introduce a novel Structural
Loss, which encourages the distilled model to capture the geometric structure
of the 3D LiDAR scene. The loss contains a scene-wise term constraining the
holistic structure and a point-wise term constraining the key landmark points
and their relative configuration. Extensive experiments demonstrate that
ScoreLiDAR significantly accelerates the completion time from 30.55 to 5.37
seconds per frame (>5times) on SemanticKITTI and achieves superior
performance compared to state-of-the-art 3D LiDAR scene completion models. Our
code is publicly available at https://github.com/happyw1nd/ScoreLiDAR.Summary
AI-Generated Summary