Difusão e Distilação com Otimização Direta de Preferências para Conclusão Eficiente de Cenas em LiDAR 3D
Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion
April 15, 2025
Autores: An Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
cs.AI
Resumo
A aplicação de modelos de difusão na completação de cenas 3D com LiDAR é limitada devido à baixa velocidade de amostragem da difusão. A destilação de pontuação acelera a amostragem de difusão, mas com degradação de desempenho, enquanto o pós-treinamento com otimização direta de política (DPO) melhora o desempenho utilizando dados de preferência. Este artigo propõe o Distillation-DPO, uma nova estrutura de destilação de difusão para completação de cenas LiDAR com alinhamento de preferências. Primeiro, o modelo estudante gera pares de cenas completadas com diferentes ruídos iniciais. Segundo, utilizando métricas de avaliação de cenas LiDAR como preferência, construímos pares de amostras vencedoras e perdedoras. Essa construção é razoável, já que a maioria das métricas de cenas LiDAR são informativas, mas não diferenciáveis para serem otimizadas diretamente. Terceiro, o Distillation-DPO otimiza o modelo estudante explorando a diferença nas funções de pontuação entre os modelos professor e estudante nas cenas completadas em pares. Esse procedimento é repetido até a convergência. Experimentos extensivos demonstram que, em comparação com os modelos de difusão de completação de cenas LiDAR state-of-the-art, o Distillation-DPO alcança uma completação de cenas de maior qualidade enquanto acelera a velocidade de completação em mais de 5 vezes. Nosso método é o primeiro a explorar a adoção de aprendizado de preferências na destilação, até onde sabemos, e fornece insights sobre a destilação alinhada por preferências. Nosso código está disponível publicamente em https://github.com/happyw1nd/DistillationDPO.
English
The application of diffusion models in 3D LiDAR scene completion is limited
due to diffusion's slow sampling speed. Score distillation accelerates
diffusion sampling but with performance degradation, while post-training with
direct policy optimization (DPO) boosts performance using preference data. This
paper proposes Distillation-DPO, a novel diffusion distillation framework for
LiDAR scene completion with preference aligment. First, the student model
generates paired completion scenes with different initial noises. Second, using
LiDAR scene evaluation metrics as preference, we construct winning and losing
sample pairs. Such construction is reasonable, since most LiDAR scene metrics
are informative but non-differentiable to be optimized directly. Third,
Distillation-DPO optimizes the student model by exploiting the difference in
score functions between the teacher and student models on the paired completion
scenes. Such procedure is repeated until convergence. Extensive experiments
demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion
models, Distillation-DPO achieves higher-quality scene completion while
accelerating the completion speed by more than 5-fold. Our method is the first
to explore adopting preference learning in distillation to the best of our
knowledge and provide insights into preference-aligned distillation. Our code
is public available on https://github.com/happyw1nd/DistillationDPO.Summary
AI-Generated Summary