ChatPaper.aiChatPaper

WaDi: Distillazione Consapevole della Direzione dei Pesi per la Sintesi di Immagini in un Singolo Passo

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

March 9, 2026
Autori: Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang
cs.AI

Abstract

Nonostante le prestazioni impressionanti dei modelli di diffusione come Stable Diffusion (SD) nella generazione di immagini, la loro lentezza nell'inferenza ne limita l'adozione pratica. Recenti lavori accelerano l'inferenza distillando modelli di diffusione multi-step in generatori one-step. Per comprendere meglio il meccanismo di distillazione, analizziamo le variazioni dei pesi della U-Net/DiT tra gli studenti one-step e le loro controparti insegnanti multi-step. La nostra analisi rivela che i cambiamenti nella direzione dei pesi superano significativamente quelli nella loro norma, evidenziandola come il fattore chiave durante la distillazione. Sulla base di questa intuizione, proponiamo la Rotazione a Basso Rango della Direzione dei pesi (LoRaD), un adattatore efficiente in termini di parametri specifico per la distillazione one-step della diffusione. LoRaD è progettato per modellare questi cambiamenti direzionali strutturati utilizzando matrici di rotazione a basso rango apprendibili. Integriamo ulteriormente LoRaD nella Variational Score Distillation (VSD), dando vita a Weight Direction-aware Distillation (WaDi) - un nuovo framework di distillazione one-step. WaDi raggiunge punteggi FID state-of-the-art su COCO 2014 e COCO 2017 utilizzando solo circa il 10% dei parametri addestrabili della U-Net/DiT. Inoltre, il modello one-step distillato dimostra una forte versatilità e scalabilità, generalizzando bene su varie attività downstream come la generazione controllabile, l'inversione di relazioni e la sintesi ad alta risoluzione.
English
Despite the impressive performance of diffusion models such as Stable Diffusion (SD) in image generation, their slow inference limits practical deployment. Recent works accelerate inference by distilling multi-step diffusion into one-step generators. To better understand the distillation mechanism, we analyze U-Net/DiT weight changes between one-step students and their multi-step teacher counterparts. Our analysis reveals that changes in weight direction significantly exceed those in weight norm, highlighting it as the key factor during distillation. Motivated by this insight, we propose the Low-rank Rotation of weight Direction (LoRaD), a parameter-efficient adapter tailored to one-step diffusion distillation. LoRaD is designed to model these structured directional changes using learnable low-rank rotation matrices. We further integrate LoRaD into Variational Score Distillation (VSD), resulting in Weight Direction-aware Distillation (WaDi)-a novel one-step distillation framework. WaDi achieves state-of-the-art FID scores on COCO 2014 and COCO 2017 while using only approximately 10% of the trainable parameters of the U-Net/DiT. Furthermore, the distilled one-step model demonstrates strong versatility and scalability, generalizing well to various downstream tasks such as controllable generation, relation inversion, and high-resolution synthesis.
PDF22March 29, 2026