Destillation von Diffusionsmodellen zur effizienten 3D LiDAR Szenenvervollständigung
Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion
December 4, 2024
Autoren: Shengyuan Zhang, An Zhao, Ling Yang, Zejian Li, Chenye Meng, Haoran Xu, Tianrun Chen, AnYang Wei, Perry Pengyun GU, Lingyun Sun
cs.AI
Zusammenfassung
Diffusionsmodelle wurden aufgrund ihrer starken Trainingsstabilität und hohen Abschlussqualität erfolgreich auf die Vervollständigung von 3D-LiDAR-Szenen angewendet. Allerdings begrenzt die langsame Abtastgeschwindigkeit die praktische Anwendung von diffusionsbasierten Szenenvervollständigungsmodellen, da autonome Fahrzeuge eine effiziente Wahrnehmung ihrer Umgebung erfordern. Dieser Artikel schlägt eine neuartige Destillationsmethode speziell für 3D LiDAR-Szenenvervollständigungsmodelle vor, genannt ScoreLiDAR, die eine effiziente und dennoch hochwertige Szenenvervollständigung ermöglicht. ScoreLiDAR ermöglicht es dem destillierten Modell, nach der Destillation in deutlich weniger Schritten zu sampeln. Um die Abschlussqualität zu verbessern, führen wir auch einen neuartigen Strukturverlust ein, der das destillierte Modell dazu anregt, die geometrische Struktur der 3D LiDAR-Szene zu erfassen. Der Verlust enthält einen szenenweisen Begriff, der die ganzheitliche Struktur einschränkt, und einen punktweisen Begriff, der die Schlüsselmarkierungspunkte und deren relative Konfiguration einschränkt. Umfangreiche Experimente zeigen, dass ScoreLiDAR die Abschlusszeit von 30,55 auf 5,37 Sekunden pro Frame (>5-mal) auf SemanticKITTI signifikant beschleunigt und im Vergleich zu modernsten 3D LiDAR-Szenenvervollständigungsmodellen eine überlegene Leistung erzielt. Unser Code ist öffentlich unter https://github.com/happyw1nd/ScoreLiDAR verfügbar.
English
Diffusion models have been applied to 3D LiDAR scene completion due to their
strong training stability and high completion quality. However, the slow
sampling speed limits the practical application of diffusion-based scene
completion models since autonomous vehicles require an efficient perception of
surrounding environments. This paper proposes a novel distillation method
tailored for 3D LiDAR scene completion models, dubbed ScoreLiDAR,
which achieves efficient yet high-quality scene completion. ScoreLiDAR enables
the distilled model to sample in significantly fewer steps after distillation.
To improve completion quality, we also introduce a novel Structural
Loss, which encourages the distilled model to capture the geometric structure
of the 3D LiDAR scene. The loss contains a scene-wise term constraining the
holistic structure and a point-wise term constraining the key landmark points
and their relative configuration. Extensive experiments demonstrate that
ScoreLiDAR significantly accelerates the completion time from 30.55 to 5.37
seconds per frame (>5times) on SemanticKITTI and achieves superior
performance compared to state-of-the-art 3D LiDAR scene completion models. Our
code is publicly available at https://github.com/happyw1nd/ScoreLiDAR.Summary
AI-Generated Summary