Diffusiedistillatie met Directe Voorkeursoptimalisatie voor Efficiënte 3D LiDAR-scènevoltooiing
Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion
April 15, 2025
Auteurs: An Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
cs.AI
Samenvatting
De toepassing van diffusiemodellen in 3D LiDAR-scenecompletering is beperkt
vanwege de trage bemonsteringssnelheid van diffusie. Score-distillatie versnelt
de diffusiebemonstering, maar gaat ten koste van de prestaties, terwijl post-training met
directe beleidsoptimalisatie (DPO) de prestaties verbetert door gebruik te maken van voorkeursdata. Dit
artikel introduceert Distillation-DPO, een nieuw diffusiedistillatieraamwerk voor
LiDAR-scenecompletering met voorkeursafstemming. Ten eerste genereert het studentmodel
gepaarde completeringsscènes met verschillende initiële ruis. Ten tweede gebruiken we
LiDAR-scene-evaluatiemetrics als voorkeur om winnende en verliezende sampleparen te construeren. Deze constructie is redelijk, aangezien de meeste LiDAR-scenemetrics
informatief maar niet differentieerbaar zijn om direct te optimaliseren. Ten derde
optimaliseert Distillation-DPO het studentmodel door het verschil in
scorefuncties tussen het leraar- en studentmodel te benutten op de gepaarde completeringsscènes. Dit proces wordt herhaald tot convergentie. Uitgebreide experimenten
tonen aan dat, vergeleken met state-of-the-art LiDAR-scenecompleteringsdiffusiemodellen, Distillation-DPO een hogere kwaliteit van scenecompletering bereikt terwijl
de completeringssnelheid met meer dan 5 keer wordt versneld. Onze methode is de eerste
die, voor zover wij weten, voorkeursleren in distillatie onderzoekt en inzichten biedt in voorkeursafgestemde distillatie. Onze code is publiekelijk beschikbaar op https://github.com/happyw1nd/DistillationDPO.
English
The application of diffusion models in 3D LiDAR scene completion is limited
due to diffusion's slow sampling speed. Score distillation accelerates
diffusion sampling but with performance degradation, while post-training with
direct policy optimization (DPO) boosts performance using preference data. This
paper proposes Distillation-DPO, a novel diffusion distillation framework for
LiDAR scene completion with preference aligment. First, the student model
generates paired completion scenes with different initial noises. Second, using
LiDAR scene evaluation metrics as preference, we construct winning and losing
sample pairs. Such construction is reasonable, since most LiDAR scene metrics
are informative but non-differentiable to be optimized directly. Third,
Distillation-DPO optimizes the student model by exploiting the difference in
score functions between the teacher and student models on the paired completion
scenes. Such procedure is repeated until convergence. Extensive experiments
demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion
models, Distillation-DPO achieves higher-quality scene completion while
accelerating the completion speed by more than 5-fold. Our method is the first
to explore adopting preference learning in distillation to the best of our
knowledge and provide insights into preference-aligned distillation. Our code
is public available on https://github.com/happyw1nd/DistillationDPO.Summary
AI-Generated Summary