WaDi: Distilación Consciente de la Dirección de Pesos para la Síntesis de Imágenes en un Solo Paso

Resumen

A pesar del impresionante rendimiento de modelos de difusión como Stable Diffusion (SD) en la generación de imágenes, su inferencia lenta limita su implementación práctica. Trabajos recientes aceleran la inferencia mediante la destilación de la difusión multi-paso en generadores de un solo paso. Para comprender mejor el mecanismo de destilación, analizamos los cambios en los pesos de U-Net/DiT entre los estudiantes de un paso y sus contrapartes docentes multi-paso. Nuestro análisis revela que los cambios en la dirección de los pesos superan significativamente a los cambios en la norma de los pesos, destacando a la dirección como el factor clave durante la destilación. Motivados por esta observación, proponemos la Rotación de Bajo Rango de la Dirección de pesos (LoRaD), un adaptador eficiente en parámetros diseñado para la destilación de difusión en un paso. LoRaD está diseñado para modelar estos cambios direccionales estructurados utilizando matrices de rotación de bajo rango entrenables. Además, integramos LoRaD en la Destilación de Puntuación Variacional (VSD), dando lugar a WaDi (Destilación Consciente de la Dirección de Pesos), un novedoso marco de destilación en un solo paso. WaDi logra puntuaciones FID state-of-the-art en COCO 2014 y COCO 2017 utilizando solo aproximadamente el 10% de los parámetros entrenables del U-Net/DiT. Además, el modelo destilado de un paso demuestra una fuerte versatilidad y escalabilidad, generalizando bien para varias tareas posteriores, como la generación controlable, la inversión de relaciones y la síntesis de alta resolución.

English

Despite the impressive performance of diffusion models such as Stable Diffusion (SD) in image generation, their slow inference limits practical deployment. Recent works accelerate inference by distilling multi-step diffusion into one-step generators. To better understand the distillation mechanism, we analyze U-Net/DiT weight changes between one-step students and their multi-step teacher counterparts. Our analysis reveals that changes in weight direction significantly exceed those in weight norm, highlighting it as the key factor during distillation. Motivated by this insight, we propose the Low-rank Rotation of weight Direction (LoRaD), a parameter-efficient adapter tailored to one-step diffusion distillation. LoRaD is designed to model these structured directional changes using learnable low-rank rotation matrices. We further integrate LoRaD into Variational Score Distillation (VSD), resulting in Weight Direction-aware Distillation (WaDi)-a novel one-step distillation framework. WaDi achieves state-of-the-art FID scores on COCO 2014 and COCO 2017 while using only approximately 10% of the trainable parameters of the U-Net/DiT. Furthermore, the distilled one-step model demonstrates strong versatility and scalability, generalizing well to various downstream tasks such as controllable generation, relation inversion, and high-resolution synthesis.

WaDi: Distilación Consciente de la Dirección de Pesos para la Síntesis de Imágenes en un Solo Paso

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Resumen

Support