ChatPaper.aiChatPaper

Difusión y Destilación con Optimización Directa de Preferencias para la Completación Eficiente de Escenas con LiDAR 3D

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

April 15, 2025
Autores: An Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
cs.AI

Resumen

La aplicación de modelos de difusión en la completación de escenas 3D con LiDAR está limitada debido a la lenta velocidad de muestreo de la difusión. La destilación de puntuaciones acelera el muestreo de difusión, pero con una degradación del rendimiento, mientras que el entrenamiento posterior con optimización directa de políticas (DPO) mejora el rendimiento utilizando datos de preferencia. Este artículo propone Distillation-DPO, un novedoso marco de destilación de difusión para la completación de escenas LiDAR con alineación de preferencias. Primero, el modelo estudiante genera pares de escenas completadas con diferentes ruidos iniciales. Segundo, utilizando métricas de evaluación de escenas LiDAR como preferencia, construimos pares de muestras ganadoras y perdedoras. Esta construcción es razonable, ya que la mayoría de las métricas de escenas LiDAR son informativas pero no diferenciables para ser optimizadas directamente. Tercero, Distillation-DPO optimiza el modelo estudiante aprovechando la diferencia en las funciones de puntuación entre los modelos profesor y estudiante en las escenas completadas emparejadas. Este procedimiento se repite hasta la convergencia. Experimentos extensivos demuestran que, en comparación con los modelos de difusión de completación de escenas LiDAR más avanzados, Distillation-DPO logra una completación de escenas de mayor calidad mientras acelera la velocidad de completación en más de 5 veces. Nuestro método es el primero en explorar la adopción del aprendizaje de preferencias en la destilación, hasta donde sabemos, y proporciona ideas sobre la destilación alineada con preferencias. Nuestro código está disponible públicamente en https://github.com/happyw1nd/DistillationDPO.
English
The application of diffusion models in 3D LiDAR scene completion is limited due to diffusion's slow sampling speed. Score distillation accelerates diffusion sampling but with performance degradation, while post-training with direct policy optimization (DPO) boosts performance using preference data. This paper proposes Distillation-DPO, a novel diffusion distillation framework for LiDAR scene completion with preference aligment. First, the student model generates paired completion scenes with different initial noises. Second, using LiDAR scene evaluation metrics as preference, we construct winning and losing sample pairs. Such construction is reasonable, since most LiDAR scene metrics are informative but non-differentiable to be optimized directly. Third, Distillation-DPO optimizes the student model by exploiting the difference in score functions between the teacher and student models on the paired completion scenes. Such procedure is repeated until convergence. Extensive experiments demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion models, Distillation-DPO achieves higher-quality scene completion while accelerating the completion speed by more than 5-fold. Our method is the first to explore adopting preference learning in distillation to the best of our knowledge and provide insights into preference-aligned distillation. Our code is public available on https://github.com/happyw1nd/DistillationDPO.

Summary

AI-Generated Summary

PDF52April 16, 2025