WaDi: 원스텝 이미지 생성을 위한 가중치 방향 인식 지식 증류
WaDi: Weight Direction-aware Distillation for One-step Image Synthesis
March 9, 2026
저자: Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang
cs.AI
초록
Stable Diffusion(SD)와 같은 확산 모델의 이미지 생성 성능이 인상적이지만, 느린 추론 속도가 실제 적용을 제한합니다. 최근 연구들은 다단계 확산 과정을 단일 단계 생성기로 증류하여 추론 속도를 가속화합니다. 이러한 증류 메커니즘을 더 잘 이해하기 위해, 우리는 단일 단계 학생 모델과 다단계 교사 모델 간의 U-Net/DiT 가중치 변화를 분석합니다. 우리의 분석 결과, 가중치 방향의 변화가 가중치 놈(norm)의 변화를 크게 초과하여, 이가 증류 과정의 핵심 요인임을 확인했습니다. 이러한 통찰에 기반하여, 우리는 단일 단계 확산 증류에 특화된 매개변수 효율적 어댑터인 저순위 가중치 방향 회전(LoRaD)을 제안합니다. LoRaD는 학습 가능한 저순위 회전 행렬을 사용하여 이러한 구조화된 방향 변화를 모델링하도록 설계되었습니다. 우리는 LoRaD를 Variational Score Distillation(VSD)에 통합하여 Weight Direction-aware Distillation(WaDi)이라는 새로운 단일 단계 증류 프레임워크를 개발했습니다. WaDi는 U-Net/DiT의 학습 가능 매개변수 약 10%만 사용하면서 COCO 2014 및 COCO 2017에서 최고 수준의 FID 점수를 달성합니다. 더 나아가, 증류된 단일 단계 모델은 제어 가능 생성, 관계 반전, 고해상도 합성과 같은 다양한 다운스트림 작업에 잘 일반화되는 강력한 다양성과 확장성을 보여줍니다.
English
Despite the impressive performance of diffusion models such as Stable Diffusion (SD) in image generation, their slow inference limits practical deployment. Recent works accelerate inference by distilling multi-step diffusion into one-step generators. To better understand the distillation mechanism, we analyze U-Net/DiT weight changes between one-step students and their multi-step teacher counterparts. Our analysis reveals that changes in weight direction significantly exceed those in weight norm, highlighting it as the key factor during distillation. Motivated by this insight, we propose the Low-rank Rotation of weight Direction (LoRaD), a parameter-efficient adapter tailored to one-step diffusion distillation. LoRaD is designed to model these structured directional changes using learnable low-rank rotation matrices. We further integrate LoRaD into Variational Score Distillation (VSD), resulting in Weight Direction-aware Distillation (WaDi)-a novel one-step distillation framework. WaDi achieves state-of-the-art FID scores on COCO 2014 and COCO 2017 while using only approximately 10% of the trainable parameters of the U-Net/DiT. Furthermore, the distilled one-step model demonstrates strong versatility and scalability, generalizing well to various downstream tasks such as controllable generation, relation inversion, and high-resolution synthesis.