Destilando Modelos de Difusão para Completude Eficiente de Cena 3D com LiDAR
Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion
December 4, 2024
Autores: Shengyuan Zhang, An Zhao, Ling Yang, Zejian Li, Chenye Meng, Haoran Xu, Tianrun Chen, AnYang Wei, Perry Pengyun GU, Lingyun Sun
cs.AI
Resumo
Os modelos de difusão têm sido aplicados à conclusão de cenas 3D LiDAR devido à sua forte estabilidade de treinamento e alta qualidade de conclusão. No entanto, a baixa velocidade de amostragem limita a aplicação prática de modelos de conclusão de cena baseados em difusão, uma vez que os veículos autônomos requerem uma percepção eficiente dos ambientes circundantes. Este artigo propõe um novo método de destilação adaptado para modelos de conclusão de cena 3D LiDAR, chamado ScoreLiDAR, que alcança uma conclusão de cena eficiente e de alta qualidade. O ScoreLiDAR permite que o modelo destilado amostragem em significativamente menos passos após a destilação. Para melhorar a qualidade da conclusão, também introduzimos uma nova Perda Estrutural, que incentiva o modelo destilado a capturar a estrutura geométrica da cena 3D LiDAR. A perda contém um termo por cena que restringe a estrutura holística e um termo por ponto que restringe os pontos de referência chave e sua configuração relativa. Experimentos extensivos demonstram que o ScoreLiDAR acelera significativamente o tempo de conclusão de 30,55 para 5,37 segundos por quadro (>5 vezes) no SemanticKITTI e alcança um desempenho superior em comparação com os modelos de conclusão de cena 3D LiDAR de última geração. Nosso código está publicamente disponível em https://github.com/happyw1nd/ScoreLiDAR.
English
Diffusion models have been applied to 3D LiDAR scene completion due to their
strong training stability and high completion quality. However, the slow
sampling speed limits the practical application of diffusion-based scene
completion models since autonomous vehicles require an efficient perception of
surrounding environments. This paper proposes a novel distillation method
tailored for 3D LiDAR scene completion models, dubbed ScoreLiDAR,
which achieves efficient yet high-quality scene completion. ScoreLiDAR enables
the distilled model to sample in significantly fewer steps after distillation.
To improve completion quality, we also introduce a novel Structural
Loss, which encourages the distilled model to capture the geometric structure
of the 3D LiDAR scene. The loss contains a scene-wise term constraining the
holistic structure and a point-wise term constraining the key landmark points
and their relative configuration. Extensive experiments demonstrate that
ScoreLiDAR significantly accelerates the completion time from 30.55 to 5.37
seconds per frame (>5times) on SemanticKITTI and achieves superior
performance compared to state-of-the-art 3D LiDAR scene completion models. Our
code is publicly available at https://github.com/happyw1nd/ScoreLiDAR.Summary
AI-Generated Summary