Диффузионная дистилляция с оптимизацией прямых предпочтений для эффективного завершения сцен на основе 3D LiDAR
Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion
April 15, 2025
Авторы: An Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
cs.AI
Аннотация
Применение диффузионных моделей для завершения 3D-сцен на основе данных LiDAR ограничено из-за низкой скорости выборки, характерной для диффузионных процессов. Дистилляция оценок ускоряет выборку, но приводит к снижению производительности, в то время как посттренинг с использованием прямой оптимизации политики (DPO) повышает производительность за счет данных о предпочтениях. В данной статье предлагается Distillation-DPO — новый фреймворк для дистилляции диффузионных моделей в задаче завершения LiDAR-сцен с учетом выравнивания предпочтений. Во-первых, студенческая модель генерирует парные завершенные сцены с разными начальными шумами. Во-вторых, используя метрики оценки LiDAR-сцен как предпочтения, мы формируем пары выигрышных и проигрышных образцов. Такое построение обосновано, поскольку большинство метрик LiDAR-сцен являются информативными, но недифференцируемыми для прямой оптимизации. В-третьих, Distillation-DPO оптимизирует студенческую модель, используя разницу в функциях оценки между учительской и студенческой моделями на парных завершенных сценах. Этот процесс повторяется до сходимости. Эксперименты показывают, что по сравнению с современными диффузионными моделями для завершения LiDAR-сцен, Distillation-DPO достигает более высокого качества завершения сцен, ускоряя процесс более чем в 5 раз. Наш метод является первым, кто исследует применение обучения на основе предпочтений в дистилляции, насколько нам известно, и предоставляет новые идеи для дистилляции с учетом предпочтений. Наш код доступен по адресу: https://github.com/happyw1nd/DistillationDPO.
English
The application of diffusion models in 3D LiDAR scene completion is limited
due to diffusion's slow sampling speed. Score distillation accelerates
diffusion sampling but with performance degradation, while post-training with
direct policy optimization (DPO) boosts performance using preference data. This
paper proposes Distillation-DPO, a novel diffusion distillation framework for
LiDAR scene completion with preference aligment. First, the student model
generates paired completion scenes with different initial noises. Second, using
LiDAR scene evaluation metrics as preference, we construct winning and losing
sample pairs. Such construction is reasonable, since most LiDAR scene metrics
are informative but non-differentiable to be optimized directly. Third,
Distillation-DPO optimizes the student model by exploiting the difference in
score functions between the teacher and student models on the paired completion
scenes. Such procedure is repeated until convergence. Extensive experiments
demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion
models, Distillation-DPO achieves higher-quality scene completion while
accelerating the completion speed by more than 5-fold. Our method is the first
to explore adopting preference learning in distillation to the best of our
knowledge and provide insights into preference-aligned distillation. Our code
is public available on https://github.com/happyw1nd/DistillationDPO.