Diffusionsdistillation mit direkter Präferenzoptimierung für effiziente 3D-LiDAR-Szenenvervollständigung
Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion
April 15, 2025
Autoren: An Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
cs.AI
Zusammenfassung
Die Anwendung von Diffusionsmodellen in der 3D-LiDAR-Szenenvervollständigung ist aufgrund der langsamen Abtastgeschwindigkeit der Diffusion begrenzt. Score-Destillation beschleunigt die Diffusion, führt jedoch zu Leistungseinbußen, während das Nachtraining mit Direct Policy Optimization (DPO) die Leistung unter Verwendung von Präferenzdaten steigert. Dieses Papier schlägt Distillation-DPO vor, ein neuartiges Diffusionsdestillationsframework für die LiDAR-Szenenvervollständigung mit Präferenzausrichtung. Zunächst generiert das Schülermodell gepaarte Vervollständigungsszenen mit unterschiedlichen Anfangsrauschen. Zweitens konstruieren wir unter Verwendung von LiDAR-Szenenbewertungsmetriken als Präferenz gewinnende und verlierende Beispielpaare. Diese Konstruktion ist sinnvoll, da die meisten LiDAR-Szenenmetriken informativ, aber nicht differenzierbar sind, um direkt optimiert zu werden. Drittens optimiert Distillation-DPO das Schülermodell, indem es die Differenz in den Score-Funktionen zwischen dem Lehrer- und dem Schülermodell auf den gepaarten Vervollständigungsszenen ausnutzt. Dieser Vorgang wird bis zur Konvergenz wiederholt. Umfangreiche Experimente zeigen, dass Distillation-DPO im Vergleich zu modernsten LiDAR-Szenenvervollständigungs-Diffusionsmodellen eine höhere Qualität der Szenenvervollständigung erreicht und die Vervollständigungsgeschwindigkeit um mehr als das Fünffache beschleunigt. Unseres Wissens ist unsere Methode die erste, die Präferenzlernen in der Destillation untersucht, und sie liefert Einblicke in die präferenzausgerichtete Destillation. Unser Code ist öffentlich verfügbar unter https://github.com/happyw1nd/DistillationDPO.
English
The application of diffusion models in 3D LiDAR scene completion is limited
due to diffusion's slow sampling speed. Score distillation accelerates
diffusion sampling but with performance degradation, while post-training with
direct policy optimization (DPO) boosts performance using preference data. This
paper proposes Distillation-DPO, a novel diffusion distillation framework for
LiDAR scene completion with preference aligment. First, the student model
generates paired completion scenes with different initial noises. Second, using
LiDAR scene evaluation metrics as preference, we construct winning and losing
sample pairs. Such construction is reasonable, since most LiDAR scene metrics
are informative but non-differentiable to be optimized directly. Third,
Distillation-DPO optimizes the student model by exploiting the difference in
score functions between the teacher and student models on the paired completion
scenes. Such procedure is repeated until convergence. Extensive experiments
demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion
models, Distillation-DPO achieves higher-quality scene completion while
accelerating the completion speed by more than 5-fold. Our method is the first
to explore adopting preference learning in distillation to the best of our
knowledge and provide insights into preference-aligned distillation. Our code
is public available on https://github.com/happyw1nd/DistillationDPO.Summary
AI-Generated Summary