Destilando modelos de difusión para completar escenas 3D de LiDAR de manera eficiente

Resumen

Los modelos de difusión se han aplicado a la completación de escenas LiDAR 3D debido a su sólida estabilidad de entrenamiento y alta calidad de completación. Sin embargo, la lenta velocidad de muestreo limita la aplicación práctica de los modelos de completación de escenas basados en difusión, ya que los vehículos autónomos requieren una percepción eficiente de los entornos circundantes. En este documento se propone un novedoso método de destilación diseñado para modelos de completación de escenas LiDAR 3D, denominado ScoreLiDAR, que logra una completación de escenas eficiente pero de alta calidad. ScoreLiDAR permite que el modelo destilado realice muestreos en significativamente menos pasos después de la destilación. Para mejorar la calidad de la completación, también introducimos una nueva Pérdida Estructural, que anima al modelo destilado a capturar la estructura geométrica de la escena LiDAR 3D. La pérdida contiene un término a nivel de escena que restringe la estructura holística y un término a nivel de punto que restringe los puntos de referencia clave y su configuración relativa. Experimentos extensos demuestran que ScoreLiDAR acelera significativamente el tiempo de completación de 30.55 a 5.37 segundos por cuadro (>5 veces) en SemanticKITTI y logra un rendimiento superior en comparación con los modelos de completación de escenas LiDAR 3D de última generación. Nuestro código está disponible públicamente en https://github.com/happyw1nd/ScoreLiDAR.

English

Diffusion models have been applied to 3D LiDAR scene completion due to their strong training stability and high completion quality. However, the slow sampling speed limits the practical application of diffusion-based scene completion models since autonomous vehicles require an efficient perception of surrounding environments. This paper proposes a novel distillation method tailored for 3D LiDAR scene completion models, dubbed ScoreLiDAR, which achieves efficient yet high-quality scene completion. ScoreLiDAR enables the distilled model to sample in significantly fewer steps after distillation. To improve completion quality, we also introduce a novel Structural Loss, which encourages the distilled model to capture the geometric structure of the 3D LiDAR scene. The loss contains a scene-wise term constraining the holistic structure and a point-wise term constraining the key landmark points and their relative configuration. Extensive experiments demonstrate that ScoreLiDAR significantly accelerates the completion time from 30.55 to 5.37 seconds per frame (>5times) on SemanticKITTI and achieves superior performance compared to state-of-the-art 3D LiDAR scene completion models. Our code is publicly available at https://github.com/happyw1nd/ScoreLiDAR.

Destilando modelos de difusión para completar escenas 3D de LiDAR de manera eficiente

Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion

Resumen

Support