ChatPaper.aiChatPaper

Difusão e Distilação com Otimização Direta de Preferências para Conclusão Eficiente de Cenas em LiDAR 3D

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

April 15, 2025
Autores: An Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
cs.AI

Resumo

A aplicação de modelos de difusão na completação de cenas 3D com LiDAR é limitada devido à baixa velocidade de amostragem da difusão. A destilação de pontuação acelera a amostragem de difusão, mas com degradação de desempenho, enquanto o pós-treinamento com otimização direta de política (DPO) melhora o desempenho utilizando dados de preferência. Este artigo propõe o Distillation-DPO, uma nova estrutura de destilação de difusão para completação de cenas LiDAR com alinhamento de preferências. Primeiro, o modelo estudante gera pares de cenas completadas com diferentes ruídos iniciais. Segundo, utilizando métricas de avaliação de cenas LiDAR como preferência, construímos pares de amostras vencedoras e perdedoras. Essa construção é razoável, já que a maioria das métricas de cenas LiDAR são informativas, mas não diferenciáveis para serem otimizadas diretamente. Terceiro, o Distillation-DPO otimiza o modelo estudante explorando a diferença nas funções de pontuação entre os modelos professor e estudante nas cenas completadas em pares. Esse procedimento é repetido até a convergência. Experimentos extensivos demonstram que, em comparação com os modelos de difusão de completação de cenas LiDAR state-of-the-art, o Distillation-DPO alcança uma completação de cenas de maior qualidade enquanto acelera a velocidade de completação em mais de 5 vezes. Nosso método é o primeiro a explorar a adoção de aprendizado de preferências na destilação, até onde sabemos, e fornece insights sobre a destilação alinhada por preferências. Nosso código está disponível publicamente em https://github.com/happyw1nd/DistillationDPO.
English
The application of diffusion models in 3D LiDAR scene completion is limited due to diffusion's slow sampling speed. Score distillation accelerates diffusion sampling but with performance degradation, while post-training with direct policy optimization (DPO) boosts performance using preference data. This paper proposes Distillation-DPO, a novel diffusion distillation framework for LiDAR scene completion with preference aligment. First, the student model generates paired completion scenes with different initial noises. Second, using LiDAR scene evaluation metrics as preference, we construct winning and losing sample pairs. Such construction is reasonable, since most LiDAR scene metrics are informative but non-differentiable to be optimized directly. Third, Distillation-DPO optimizes the student model by exploiting the difference in score functions between the teacher and student models on the paired completion scenes. Such procedure is repeated until convergence. Extensive experiments demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion models, Distillation-DPO achieves higher-quality scene completion while accelerating the completion speed by more than 5-fold. Our method is the first to explore adopting preference learning in distillation to the best of our knowledge and provide insights into preference-aligned distillation. Our code is public available on https://github.com/happyw1nd/DistillationDPO.

Summary

AI-Generated Summary

PDF52April 16, 2025