WaDi: Gewichtsrichtungsbewusste Destillation für Ein-Schritt-Bildsynthese

Zusammenfassung

Trotz der beeindruckenden Leistung von Diffusionsmodellen wie Stable Diffusion (SD) in der Bildgenerierung schränkt ihre langsame Inferenz die praktische Anwendung ein. Aktuelle Arbeiten beschleunigen die Inferenz, indem sie die mehrstufige Diffusion in einstufige Generatoren destillieren. Um den Destillationsmechanismus besser zu verstehen, analysieren wir die Gewichtsveränderungen in U-Net/DiT zwischen einstufigen Studentenmodellen und ihren mehrstufigen Lehrer-Gegenstücken. Unsere Analyse zeigt, dass die Veränderungen der Gewichtsrichtung die der Gewichtsnorm erheblich übertreffen, was sie als Schlüsselfaktor während der Destillation hervorhebt. Angeregt durch diese Erkenntnis schlagen wir die Low-rank Rotation of weight Direction (LoRaD) vor, einen parameter-effizienten Adapter, der speziell für die einstufige Diffusionsdestillation entwickelt wurde. LoRaD ist darauf ausgelegt, diese strukturierten Richtungsänderungen mittels lernbarer Low-rank-Rotationsmatrizen zu modellieren. Wir integrieren LoRaD weiterhin in die Variational Score Distillation (VSD), was zu Weight Direction-aware Distillation (WaDi) führt – einem neuartigen einstufigen Destillationsframework. WaDi erzielt state-of-the-art FID-Werte auf COCO 2014 und COCO 2017, während nur etwa 10 % der trainierbaren Parameter des U-Net/DiT verwendet werden. Darüber hinaus zeigt das destillierte einstufige Modell eine starke Vielseitigkeit und Skalierbarkeit und generalisiert gut für verschiedene Downstream-Aufgaben wie kontrollierbare Generierung, Relationsinversion und hochauflösende Synthese.

English

Despite the impressive performance of diffusion models such as Stable Diffusion (SD) in image generation, their slow inference limits practical deployment. Recent works accelerate inference by distilling multi-step diffusion into one-step generators. To better understand the distillation mechanism, we analyze U-Net/DiT weight changes between one-step students and their multi-step teacher counterparts. Our analysis reveals that changes in weight direction significantly exceed those in weight norm, highlighting it as the key factor during distillation. Motivated by this insight, we propose the Low-rank Rotation of weight Direction (LoRaD), a parameter-efficient adapter tailored to one-step diffusion distillation. LoRaD is designed to model these structured directional changes using learnable low-rank rotation matrices. We further integrate LoRaD into Variational Score Distillation (VSD), resulting in Weight Direction-aware Distillation (WaDi)-a novel one-step distillation framework. WaDi achieves state-of-the-art FID scores on COCO 2014 and COCO 2017 while using only approximately 10% of the trainable parameters of the U-Net/DiT. Furthermore, the distilled one-step model demonstrates strong versatility and scalability, generalizing well to various downstream tasks such as controllable generation, relation inversion, and high-resolution synthesis.

WaDi: Gewichtsrichtungsbewusste Destillation für Ein-Schritt-Bildsynthese

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Zusammenfassung

Support