WaDi: ワンステップ画像合成のための重み方向認識蒸留
WaDi: Weight Direction-aware Distillation for One-step Image Synthesis
March 9, 2026
著者: Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang
cs.AI
要旨
Stable Diffusion(SD)などの拡散モデルは画像生成において優れた性能を示すものの、推論速度の遅さが実用上の課題となっている。近年の研究では、多段階の拡散プロセスを1段階の生成器に蒸留することで推論の高速化が図られている。本論文では蒸留メカニズムの理解を深めるため、1段階の学生モデルと多段階の教師モデル間におけるU-Net/DiTの重み変化を分析する。分析の結果、重みの方向変化が重みのノルム変化を大幅に上回っており、これが蒸留過程における主要因であることが明らかとなった。この知見に基づき、我々は重み方向の低ランク回転(LoRaD)を提案する。これは1段階拡散蒸留に特化したパラメータ効率の高いアダプタであり、学習可能な低ランク回転行列を用いて構造化された方向変化をモデル化する。さらにLoRaDをVariational Score Distillation(VSD)に統合し、重み方向を考慮した新しい蒸留フレームワーク「WaDi」を構築した。WaDiはU-Net/DiTの学習可能パラメータの約10%のみを使用しながら、COCO 2014およびCOCO 2017においてstate-of-the-artのFIDスコアを達成した。さらに、蒸留された1段階モデルは強力な汎用性と拡張性を示し、制御可能な生成、関係性反転、高解像度合成といった様々な下流タスクに良好に適応することが確認された。
English
Despite the impressive performance of diffusion models such as Stable Diffusion (SD) in image generation, their slow inference limits practical deployment. Recent works accelerate inference by distilling multi-step diffusion into one-step generators. To better understand the distillation mechanism, we analyze U-Net/DiT weight changes between one-step students and their multi-step teacher counterparts. Our analysis reveals that changes in weight direction significantly exceed those in weight norm, highlighting it as the key factor during distillation. Motivated by this insight, we propose the Low-rank Rotation of weight Direction (LoRaD), a parameter-efficient adapter tailored to one-step diffusion distillation. LoRaD is designed to model these structured directional changes using learnable low-rank rotation matrices. We further integrate LoRaD into Variational Score Distillation (VSD), resulting in Weight Direction-aware Distillation (WaDi)-a novel one-step distillation framework. WaDi achieves state-of-the-art FID scores on COCO 2014 and COCO 2017 while using only approximately 10% of the trainable parameters of the U-Net/DiT. Furthermore, the distilled one-step model demonstrates strong versatility and scalability, generalizing well to various downstream tasks such as controllable generation, relation inversion, and high-resolution synthesis.