효율적인 3D LiDAR 장면 완성을 위한 직접 선호 최적화와 확산 증류
Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion
April 15, 2025
저자: An Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
cs.AI
초록
3D LiDAR 장면 완성을 위한 확산 모델의 적용은 확산 모델의 느린 샘플링 속도로 인해 제한적입니다. 점수 증류는 확산 샘플링을 가속화하지만 성능 저하가 발생하며, 직접 정책 최적화(DPO)를 통한 사후 학습은 선호 데이터를 사용하여 성능을 향상시킵니다. 본 논문은 선호 정렬을 통한 LiDAR 장면 완성을 위한 새로운 확산 증류 프레임워크인 Distillation-DPO를 제안합니다. 첫째, 학생 모델은 서로 다른 초기 노이즈를 사용하여 쌍을 이루는 완성 장면을 생성합니다. 둘째, LiDAR 장면 평가 메트릭을 선호도로 사용하여 승리 및 패배 샘플 쌍을 구성합니다. 이러한 구성은 대부분의 LiDAR 장면 메트릭이 정보를 제공하지만 직접 최적화하기에는 미분 불가능하기 때문에 합리적입니다. 셋째, Distillation-DPO는 쌍을 이루는 완성 장면에서 교사 모델과 학생 모델 간의 점수 함수 차이를 활용하여 학생 모델을 최적화합니다. 이러한 절차는 수렴할 때까지 반복됩니다. 광범위한 실험을 통해, 최신 LiDAR 장면 완성 확산 모델과 비교하여 Distillation-DPO가 더 높은 품질의 장면 완성을 달성하면서 완성 속도를 5배 이상 가속화함을 입증했습니다. 우리의 방법은 지식 범위 내에서 증류에 선호 학습을 도입한 첫 번째 시도이며, 선호 정렬 증류에 대한 통찰을 제공합니다. 우리의 코드는 https://github.com/happyw1nd/DistillationDPO에서 공개적으로 이용 가능합니다.
English
The application of diffusion models in 3D LiDAR scene completion is limited
due to diffusion's slow sampling speed. Score distillation accelerates
diffusion sampling but with performance degradation, while post-training with
direct policy optimization (DPO) boosts performance using preference data. This
paper proposes Distillation-DPO, a novel diffusion distillation framework for
LiDAR scene completion with preference aligment. First, the student model
generates paired completion scenes with different initial noises. Second, using
LiDAR scene evaluation metrics as preference, we construct winning and losing
sample pairs. Such construction is reasonable, since most LiDAR scene metrics
are informative but non-differentiable to be optimized directly. Third,
Distillation-DPO optimizes the student model by exploiting the difference in
score functions between the teacher and student models on the paired completion
scenes. Such procedure is repeated until convergence. Extensive experiments
demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion
models, Distillation-DPO achieves higher-quality scene completion while
accelerating the completion speed by more than 5-fold. Our method is the first
to explore adopting preference learning in distillation to the best of our
knowledge and provide insights into preference-aligned distillation. Our code
is public available on https://github.com/happyw1nd/DistillationDPO.Summary
AI-Generated Summary