WaDi : Distillation sensible à la direction des poids pour la synthèse d'images en une étape

Résumé

Malgré les performances impressionnantes des modèles de diffusion comme Stable Diffusion (SD) en génération d'images, leur inférence lente limite leur déploiement pratique. Des travaux récents accélèrent l'inférence en distillant une diffusion multi-étapes en des générateurs mono-étape. Pour mieux comprendre le mécanisme de distillation, nous analysons les changements des poids des U-Net/DiT entre les étudiants mono-étape et leurs homologues enseignants multi-étapes. Notre analyse révèle que les changements dans la direction des poids dépassent significativement ceux de leur norme, la désignant comme le facteur clé durant la distillation. Motivés par cette observation, nous proposons la Rotation de Bas Rang de la Direction des poids (LoRaD), un adaptateur efficace en paramètres conçu pour la distillation de diffusion mono-étape. LoRaD est conçu pour modéliser ces changements directionnels structurés à l'aide de matrices de rotation à bas rang apprenables. Nous intégrons ensuite LoRaD dans la Distillation de Score Variationnelle (VSD), donnant naissance à la Distillation Sensible à la Direction des Poids (WaDi) – un nouveau cadre de distillation mono-étape. WaDi atteint des scores FID state-of-the-art sur COCO 2014 et COCO 2017 tout en n'utilisant qu'environ 10 % des paramètres entraînables de l'U-Net/DiT. De plus, le modèle mono-étape distillé démontre une forte versatilité et évolutivité, généralisant bien à diverses tâches en aval telles que la génération contrôlable, l'inversion de relations et la synthèse haute résolution.

English

Despite the impressive performance of diffusion models such as Stable Diffusion (SD) in image generation, their slow inference limits practical deployment. Recent works accelerate inference by distilling multi-step diffusion into one-step generators. To better understand the distillation mechanism, we analyze U-Net/DiT weight changes between one-step students and their multi-step teacher counterparts. Our analysis reveals that changes in weight direction significantly exceed those in weight norm, highlighting it as the key factor during distillation. Motivated by this insight, we propose the Low-rank Rotation of weight Direction (LoRaD), a parameter-efficient adapter tailored to one-step diffusion distillation. LoRaD is designed to model these structured directional changes using learnable low-rank rotation matrices. We further integrate LoRaD into Variational Score Distillation (VSD), resulting in Weight Direction-aware Distillation (WaDi)-a novel one-step distillation framework. WaDi achieves state-of-the-art FID scores on COCO 2014 and COCO 2017 while using only approximately 10% of the trainable parameters of the U-Net/DiT. Furthermore, the distilled one-step model demonstrates strong versatility and scalability, generalizing well to various downstream tasks such as controllable generation, relation inversion, and high-resolution synthesis.

WaDi : Distillation sensible à la direction des poids pour la synthèse d'images en une étape

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Résumé

Support