ChatPaper.aiChatPaper

Distillation par diffusion avec optimisation directe des préférences pour une complétion efficace de scènes 3D LiDAR

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

April 15, 2025
Auteurs: An Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
cs.AI

Résumé

L'application des modèles de diffusion à la complétion de scènes 3D LiDAR est limitée en raison de la lenteur d'échantillonnage de la diffusion. La distillation de score accélère l'échantillonnage de la diffusion, mais avec une dégradation des performances, tandis que l'optimisation directe de la politique (DPO) post-entraînement améliore les performances en utilisant des données de préférence. Cet article propose Distillation-DPO, un nouveau cadre de distillation de diffusion pour la complétion de scènes LiDAR avec alignement des préférences. Premièrement, le modèle étudiant génère des paires de scènes complétées avec différents bruits initiaux. Deuxièmement, en utilisant les métriques d'évaluation de scènes LiDAR comme préférence, nous construisons des paires d'échantillons gagnants et perdants. Une telle construction est raisonnable, car la plupart des métriques de scènes LiDAR sont informatives mais non différentiables pour être optimisées directement. Troisièmement, Distillation-DPO optimise le modèle étudiant en exploitant la différence des fonctions de score entre les modèles enseignant et étudiant sur les paires de scènes complétées. Cette procédure est répétée jusqu'à convergence. Des expériences approfondies démontrent que, par rapport aux modèles de diffusion de complétion de scènes LiDAR de pointe, Distillation-DPO réalise une complétion de scène de qualité supérieure tout en accélérant la vitesse de complétion de plus de 5 fois. À notre connaissance, notre méthode est la première à explorer l'adoption de l'apprentissage par préférence dans la distillation et à fournir des insights sur la distillation alignée sur les préférences. Notre code est disponible publiquement sur https://github.com/happyw1nd/DistillationDPO.
English
The application of diffusion models in 3D LiDAR scene completion is limited due to diffusion's slow sampling speed. Score distillation accelerates diffusion sampling but with performance degradation, while post-training with direct policy optimization (DPO) boosts performance using preference data. This paper proposes Distillation-DPO, a novel diffusion distillation framework for LiDAR scene completion with preference aligment. First, the student model generates paired completion scenes with different initial noises. Second, using LiDAR scene evaluation metrics as preference, we construct winning and losing sample pairs. Such construction is reasonable, since most LiDAR scene metrics are informative but non-differentiable to be optimized directly. Third, Distillation-DPO optimizes the student model by exploiting the difference in score functions between the teacher and student models on the paired completion scenes. Such procedure is repeated until convergence. Extensive experiments demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion models, Distillation-DPO achieves higher-quality scene completion while accelerating the completion speed by more than 5-fold. Our method is the first to explore adopting preference learning in distillation to the best of our knowledge and provide insights into preference-aligned distillation. Our code is public available on https://github.com/happyw1nd/DistillationDPO.

Summary

AI-Generated Summary

PDF52April 16, 2025