Diffusionsdistillation mit direkter Präferenzoptimierung für effiziente 3D-LiDAR-Szenenvervollständigung

papers.abstract

Die Anwendung von Diffusionsmodellen in der 3D-LiDAR-Szenenvervollständigung ist aufgrund der langsamen Abtastgeschwindigkeit der Diffusion begrenzt. Score-Destillation beschleunigt die Diffusion, führt jedoch zu Leistungseinbußen, während das Nachtraining mit Direct Policy Optimization (DPO) die Leistung unter Verwendung von Präferenzdaten steigert. Dieses Papier schlägt Distillation-DPO vor, ein neuartiges Diffusionsdestillationsframework für die LiDAR-Szenenvervollständigung mit Präferenzausrichtung. Zunächst generiert das Schülermodell gepaarte Vervollständigungsszenen mit unterschiedlichen Anfangsrauschen. Zweitens konstruieren wir unter Verwendung von LiDAR-Szenenbewertungsmetriken als Präferenz gewinnende und verlierende Beispielpaare. Diese Konstruktion ist sinnvoll, da die meisten LiDAR-Szenenmetriken informativ, aber nicht differenzierbar sind, um direkt optimiert zu werden. Drittens optimiert Distillation-DPO das Schülermodell, indem es die Differenz in den Score-Funktionen zwischen dem Lehrer- und dem Schülermodell auf den gepaarten Vervollständigungsszenen ausnutzt. Dieser Vorgang wird bis zur Konvergenz wiederholt. Umfangreiche Experimente zeigen, dass Distillation-DPO im Vergleich zu modernsten LiDAR-Szenenvervollständigungs-Diffusionsmodellen eine höhere Qualität der Szenenvervollständigung erreicht und die Vervollständigungsgeschwindigkeit um mehr als das Fünffache beschleunigt. Unseres Wissens ist unsere Methode die erste, die Präferenzlernen in der Destillation untersucht, und sie liefert Einblicke in die präferenzausgerichtete Destillation. Unser Code ist öffentlich verfügbar unter https://github.com/happyw1nd/DistillationDPO.

English

The application of diffusion models in 3D LiDAR scene completion is limited due to diffusion's slow sampling speed. Score distillation accelerates diffusion sampling but with performance degradation, while post-training with direct policy optimization (DPO) boosts performance using preference data. This paper proposes Distillation-DPO, a novel diffusion distillation framework for LiDAR scene completion with preference aligment. First, the student model generates paired completion scenes with different initial noises. Second, using LiDAR scene evaluation metrics as preference, we construct winning and losing sample pairs. Such construction is reasonable, since most LiDAR scene metrics are informative but non-differentiable to be optimized directly. Third, Distillation-DPO optimizes the student model by exploiting the difference in score functions between the teacher and student models on the paired completion scenes. Such procedure is repeated until convergence. Extensive experiments demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion models, Distillation-DPO achieves higher-quality scene completion while accelerating the completion speed by more than 5-fold. Our method is the first to explore adopting preference learning in distillation to the best of our knowledge and provide insights into preference-aligned distillation. Our code is public available on https://github.com/happyw1nd/DistillationDPO.

Diffusionsdistillation mit direkter Präferenzoptimierung für effiziente 3D-LiDAR-Szenenvervollständigung

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

papers.abstract

Support