WaDi: Distilação Consciente da Direção de Pesos para Síntese de Imagem em Uma Etapa

Resumo

Apesar do desempenho impressionante de modelos de difusão, como o Stable Diffusion (SD), na geração de imagens, sua inferência lenta limita a implantação prática. Trabalhos recentes aceleram a inferência por meio da destilação da difusão em múltiplas etapas em geradores de etapa única. Para compreender melhor o mecanismo de destilação, analisamos as alterações nos pesos da U-Net/DiT entre os alunos de etapa única e suas contrapartes professoras de múltiplas etapas. Nossa análise revela que as mudanças na direção dos pesos superam significativamente as mudanças na norma dos pesos, destacando-a como o fator chave durante a destilação. Motivados por essa percepção, propomos o LoRaD (Low-rank Rotation of weight Direction), um adaptador eficiente em parâmetros adaptado à destilação de difusão em uma etapa. O LoRaD foi projetado para modelar essas mudanças direcionais estruturadas usando matrizes de rotação de baixo posto aprendíveis. Integramos ainda mais o LoRaD na Destilação de Variância de Pontuação (VSD), resultando na WaDi (Weight Direction-aware Distillation) – uma nova estrutura de destilação em uma etapa. A WaDi atinge pontuações FID state-of-the-art no COCO 2014 e no COCO 2017, utilizando apenas aproximadamente 10% dos parâmetros treináveis da U-Net/DiT. Além disso, o modelo destilado de etapa única demonstra forte versatilidade e escalabilidade, generalizando bem para várias tarefas subsequentes, como geração controlável, inversão de relações e síntese de alta resolução.

English

Despite the impressive performance of diffusion models such as Stable Diffusion (SD) in image generation, their slow inference limits practical deployment. Recent works accelerate inference by distilling multi-step diffusion into one-step generators. To better understand the distillation mechanism, we analyze U-Net/DiT weight changes between one-step students and their multi-step teacher counterparts. Our analysis reveals that changes in weight direction significantly exceed those in weight norm, highlighting it as the key factor during distillation. Motivated by this insight, we propose the Low-rank Rotation of weight Direction (LoRaD), a parameter-efficient adapter tailored to one-step diffusion distillation. LoRaD is designed to model these structured directional changes using learnable low-rank rotation matrices. We further integrate LoRaD into Variational Score Distillation (VSD), resulting in Weight Direction-aware Distillation (WaDi)-a novel one-step distillation framework. WaDi achieves state-of-the-art FID scores on COCO 2014 and COCO 2017 while using only approximately 10% of the trainable parameters of the U-Net/DiT. Furthermore, the distilled one-step model demonstrates strong versatility and scalability, generalizing well to various downstream tasks such as controllable generation, relation inversion, and high-resolution synthesis.

WaDi: Distilação Consciente da Direção de Pesos para Síntese de Imagem em Uma Etapa

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Resumo

Support