Диффузионная дистилляция с оптимизацией прямых предпочтений для эффективного завершения сцен на основе 3D LiDAR

Аннотация

Применение диффузионных моделей для завершения 3D-сцен на основе данных LiDAR ограничено из-за низкой скорости выборки, характерной для диффузионных процессов. Дистилляция оценок ускоряет выборку, но приводит к снижению производительности, в то время как посттренинг с использованием прямой оптимизации политики (DPO) повышает производительность за счет данных о предпочтениях. В данной статье предлагается Distillation-DPO — новый фреймворк для дистилляции диффузионных моделей в задаче завершения LiDAR-сцен с учетом выравнивания предпочтений. Во-первых, студенческая модель генерирует парные завершенные сцены с разными начальными шумами. Во-вторых, используя метрики оценки LiDAR-сцен как предпочтения, мы формируем пары выигрышных и проигрышных образцов. Такое построение обосновано, поскольку большинство метрик LiDAR-сцен являются информативными, но недифференцируемыми для прямой оптимизации. В-третьих, Distillation-DPO оптимизирует студенческую модель, используя разницу в функциях оценки между учительской и студенческой моделями на парных завершенных сценах. Этот процесс повторяется до сходимости. Эксперименты показывают, что по сравнению с современными диффузионными моделями для завершения LiDAR-сцен, Distillation-DPO достигает более высокого качества завершения сцен, ускоряя процесс более чем в 5 раз. Наш метод является первым, кто исследует применение обучения на основе предпочтений в дистилляции, насколько нам известно, и предоставляет новые идеи для дистилляции с учетом предпочтений. Наш код доступен по адресу: https://github.com/happyw1nd/DistillationDPO.

English

The application of diffusion models in 3D LiDAR scene completion is limited due to diffusion's slow sampling speed. Score distillation accelerates diffusion sampling but with performance degradation, while post-training with direct policy optimization (DPO) boosts performance using preference data. This paper proposes Distillation-DPO, a novel diffusion distillation framework for LiDAR scene completion with preference aligment. First, the student model generates paired completion scenes with different initial noises. Second, using LiDAR scene evaluation metrics as preference, we construct winning and losing sample pairs. Such construction is reasonable, since most LiDAR scene metrics are informative but non-differentiable to be optimized directly. Third, Distillation-DPO optimizes the student model by exploiting the difference in score functions between the teacher and student models on the paired completion scenes. Such procedure is repeated until convergence. Extensive experiments demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion models, Distillation-DPO achieves higher-quality scene completion while accelerating the completion speed by more than 5-fold. Our method is the first to explore adopting preference learning in distillation to the best of our knowledge and provide insights into preference-aligned distillation. Our code is public available on https://github.com/happyw1nd/DistillationDPO.

Диффузионная дистилляция с оптимизацией прямых предпочтений для эффективного завершения сцен на основе 3D LiDAR

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

Аннотация

Support