Сжатие моделей диффузии для эффективного завершения сцен LiDAR в 3D
Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion
December 4, 2024
Авторы: Shengyuan Zhang, An Zhao, Ling Yang, Zejian Li, Chenye Meng, Haoran Xu, Tianrun Chen, AnYang Wei, Perry Pengyun GU, Lingyun Sun
cs.AI
Аннотация
Модели диффузии были применены к завершению сцен LiDAR в 3D из-за их высокой стабильности обучения и качества завершения. Однако медленная скорость выборки ограничивает практическое применение моделей завершения сцен на основе диффузии, поскольку автономным транспортным средствам требуется эффективное восприятие окружающей среды. В данной статье предлагается новый метод дистилляции, разработанный специально для моделей завершения сцен LiDAR в 3D, получивший название ScoreLiDAR, который обеспечивает эффективное, но высококачественное завершение сцен. ScoreLiDAR позволяет дистиллированной модели выбирать значительно меньшее количество шагов после дистилляции. Для улучшения качества завершения мы также представляем новую Структурную Потерю, которая побуждает дистиллированную модель захватывать геометрическую структуру сцены LiDAR в 3D. Потеря содержит термин, ограничивающий структуру сцены в целом, а также термин, ограничивающий ключевые точки ориентиров и их относительную конфигурацию. Обширные эксперименты показывают, что ScoreLiDAR значительно ускоряет время завершения с 30,55 до 5,37 секунды на кадр (>5 раз) на наборе данных SemanticKITTI и достигает превосходных результатов по сравнению с передовыми моделями завершения сцен LiDAR в 3D. Наш код доступен по адресу https://github.com/happyw1nd/ScoreLiDAR.
English
Diffusion models have been applied to 3D LiDAR scene completion due to their
strong training stability and high completion quality. However, the slow
sampling speed limits the practical application of diffusion-based scene
completion models since autonomous vehicles require an efficient perception of
surrounding environments. This paper proposes a novel distillation method
tailored for 3D LiDAR scene completion models, dubbed ScoreLiDAR,
which achieves efficient yet high-quality scene completion. ScoreLiDAR enables
the distilled model to sample in significantly fewer steps after distillation.
To improve completion quality, we also introduce a novel Structural
Loss, which encourages the distilled model to capture the geometric structure
of the 3D LiDAR scene. The loss contains a scene-wise term constraining the
holistic structure and a point-wise term constraining the key landmark points
and their relative configuration. Extensive experiments demonstrate that
ScoreLiDAR significantly accelerates the completion time from 30.55 to 5.37
seconds per frame (>5times) on SemanticKITTI and achieves superior
performance compared to state-of-the-art 3D LiDAR scene completion models. Our
code is publicly available at https://github.com/happyw1nd/ScoreLiDAR.Summary
AI-Generated Summary