ChatPaper.aiChatPaper

Destillation von Diffusionsmodellen zur effizienten 3D LiDAR Szenenvervollständigung

Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion

December 4, 2024
Autoren: Shengyuan Zhang, An Zhao, Ling Yang, Zejian Li, Chenye Meng, Haoran Xu, Tianrun Chen, AnYang Wei, Perry Pengyun GU, Lingyun Sun
cs.AI

Zusammenfassung

Diffusionsmodelle wurden aufgrund ihrer starken Trainingsstabilität und hohen Abschlussqualität erfolgreich auf die Vervollständigung von 3D-LiDAR-Szenen angewendet. Allerdings begrenzt die langsame Abtastgeschwindigkeit die praktische Anwendung von diffusionsbasierten Szenenvervollständigungsmodellen, da autonome Fahrzeuge eine effiziente Wahrnehmung ihrer Umgebung erfordern. Dieser Artikel schlägt eine neuartige Destillationsmethode speziell für 3D LiDAR-Szenenvervollständigungsmodelle vor, genannt ScoreLiDAR, die eine effiziente und dennoch hochwertige Szenenvervollständigung ermöglicht. ScoreLiDAR ermöglicht es dem destillierten Modell, nach der Destillation in deutlich weniger Schritten zu sampeln. Um die Abschlussqualität zu verbessern, führen wir auch einen neuartigen Strukturverlust ein, der das destillierte Modell dazu anregt, die geometrische Struktur der 3D LiDAR-Szene zu erfassen. Der Verlust enthält einen szenenweisen Begriff, der die ganzheitliche Struktur einschränkt, und einen punktweisen Begriff, der die Schlüsselmarkierungspunkte und deren relative Konfiguration einschränkt. Umfangreiche Experimente zeigen, dass ScoreLiDAR die Abschlusszeit von 30,55 auf 5,37 Sekunden pro Frame (>5-mal) auf SemanticKITTI signifikant beschleunigt und im Vergleich zu modernsten 3D LiDAR-Szenenvervollständigungsmodellen eine überlegene Leistung erzielt. Unser Code ist öffentlich unter https://github.com/happyw1nd/ScoreLiDAR verfügbar.
English
Diffusion models have been applied to 3D LiDAR scene completion due to their strong training stability and high completion quality. However, the slow sampling speed limits the practical application of diffusion-based scene completion models since autonomous vehicles require an efficient perception of surrounding environments. This paper proposes a novel distillation method tailored for 3D LiDAR scene completion models, dubbed ScoreLiDAR, which achieves efficient yet high-quality scene completion. ScoreLiDAR enables the distilled model to sample in significantly fewer steps after distillation. To improve completion quality, we also introduce a novel Structural Loss, which encourages the distilled model to capture the geometric structure of the 3D LiDAR scene. The loss contains a scene-wise term constraining the holistic structure and a point-wise term constraining the key landmark points and their relative configuration. Extensive experiments demonstrate that ScoreLiDAR significantly accelerates the completion time from 30.55 to 5.37 seconds per frame (>5times) on SemanticKITTI and achieves superior performance compared to state-of-the-art 3D LiDAR scene completion models. Our code is publicly available at https://github.com/happyw1nd/ScoreLiDAR.

Summary

AI-Generated Summary

PDF282December 5, 2024