ChatPaper.aiChatPaper

効率的な3D LiDARシーン補完のための直接選好最適化を伴う拡散蒸留

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

April 15, 2025
著者: An Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
cs.AI

要旨

3D LiDARシーン補完における拡散モデルの応用は、拡散の遅いサンプリング速度により制限されています。スコア蒸留は拡散サンプリングを加速しますが、性能の低下を伴います。一方、直接方策最適化(DPO)を用いた事後学習は、選好データを使用して性能を向上させます。本論文では、選好整合を伴うLiDARシーン補完のための新しい拡散蒸留フレームワークであるDistillation-DPOを提案します。まず、学生モデルが異なる初期ノイズを用いてペアの補完シーンを生成します。次に、LiDARシーン評価指標を選好として使用し、勝ち負けのサンプルペアを構築します。この構築は、ほとんどのLiDARシーン指標が有益であるが、直接最適化するには非微分可能であるため、合理的です。第三に、Distillation-DPOは、ペアの補完シーンにおける教師モデルと学生モデルのスコア関数の差を利用して学生モデルを最適化します。この手順は収束するまで繰り返されます。広範な実験により、最先端のLiDARシーン補完拡散モデルと比較して、Distillation-DPOがより高品質なシーン補完を達成し、補完速度を5倍以上加速することが示されています。私たちの知る限り、本手法は蒸留に選好学習を採用する最初の試みであり、選好整合蒸留に関する洞察を提供します。私たちのコードはhttps://github.com/happyw1nd/DistillationDPOで公開されています。
English
The application of diffusion models in 3D LiDAR scene completion is limited due to diffusion's slow sampling speed. Score distillation accelerates diffusion sampling but with performance degradation, while post-training with direct policy optimization (DPO) boosts performance using preference data. This paper proposes Distillation-DPO, a novel diffusion distillation framework for LiDAR scene completion with preference aligment. First, the student model generates paired completion scenes with different initial noises. Second, using LiDAR scene evaluation metrics as preference, we construct winning and losing sample pairs. Such construction is reasonable, since most LiDAR scene metrics are informative but non-differentiable to be optimized directly. Third, Distillation-DPO optimizes the student model by exploiting the difference in score functions between the teacher and student models on the paired completion scenes. Such procedure is repeated until convergence. Extensive experiments demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion models, Distillation-DPO achieves higher-quality scene completion while accelerating the completion speed by more than 5-fold. Our method is the first to explore adopting preference learning in distillation to the best of our knowledge and provide insights into preference-aligned distillation. Our code is public available on https://github.com/happyw1nd/DistillationDPO.

Summary

AI-Generated Summary

PDF52April 16, 2025