DDT: 디커플드 디퓨전 트랜스포머
DDT: Decoupled Diffusion Transformer
April 8, 2025
저자: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
cs.AI
초록
디퓨전 트랜스포머는 뛰어난 생성 품질을 보여주지만, 더 긴 학습 반복과 많은 추론 단계를 필요로 합니다. 각 디노이징 단계에서 디퓨전 트랜스포머는 노이즈가 있는 입력을 인코딩하여 저주파수 의미 구성요소를 추출한 후, 동일한 모듈을 사용하여 고주파수를 디코딩합니다. 이 방식은 본질적인 최적화 딜레마를 야기합니다: 저주파수 의미를 인코딩하려면 고주파수 구성요소를 줄여야 하기 때문에, 의미 인코딩과 고주파수 디코딩 사이에 긴장이 발생합니다. 이 문제를 해결하기 위해, 우리는 전용 조건 인코더를 통한 의미 추출과 전문화된 속도 디코더를 결합한 디커플드 디자인을 가진 새로운 \color{ddtD}디커플드 \color{ddtD}디퓨전 \color{ddtT}트랜스포머~(\color{ddtDDT})를 제안합니다. 우리의 실험은 모델 크기가 증가함에 따라 더 강력한 인코더가 성능 향상을 가져온다는 것을 보여줍니다. ImageNet 256x256에서, 우리의 DDT-XL/2는 {1.31 FID}라는 새로운 최첨단 성능을 달성했습니다(이전 디퓨전 트랜스포머 대비 거의 4배 빠른 학습 수렴). ImageNet 512x512에서, 우리의 DDT-XL/2는 1.28 FID라는 새로운 최첨단 성능을 달성했습니다. 또한, 디커플드 아키텍처는 인접한 디노이징 단계 간의 자체 조건 공유를 가능하게 함으로써 추론 속도를 향상시키는 유익한 부산물을 제공합니다. 성능 저하를 최소화하기 위해, 우리는 최적의 공유 전략을 식별하기 위한 새로운 통계적 동적 프로그래밍 접근 방식을 제안합니다.
English
Diffusion transformers have demonstrated remarkable generation quality,
albeit requiring longer training iterations and numerous inference steps. In
each denoising step, diffusion transformers encode the noisy inputs to extract
the lower-frequency semantic component and then decode the higher frequency
with identical modules. This scheme creates an inherent optimization dilemma:
encoding low-frequency semantics necessitates reducing high-frequency
components, creating tension between semantic encoding and high-frequency
decoding. To resolve this challenge, we propose a new
\color{ddtD}ecoupled \color{ddtD}iffusion
\color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled
design of a dedicated condition encoder for semantic extraction alongside a
specialized velocity decoder. Our experiments reveal that a more substantial
encoder yields performance improvements as model size increases. For ImageNet
256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of
{1.31 FID}~(nearly 4times faster training convergence compared to previous
diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a
new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our
decoupled architecture enhances inference speed by enabling the sharing
self-condition between adjacent denoising steps. To minimize performance
degradation, we propose a novel statistical dynamic programming approach to
identify optimal sharing strategies.Summary
AI-Generated Summary