DDT: Декомбинированный диффузионный трансформер
DDT: Decoupled Diffusion Transformer
April 8, 2025
Авторы: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
cs.AI
Аннотация
Диффузионные трансформеры продемонстрировали выдающееся качество генерации, хотя и требуют более длительных итераций обучения и множества шагов вывода. На каждом шаге удаления шума диффузионные трансформеры кодируют зашумленные входные данные для извлечения низкочастотной семантической составляющей, а затем декодируют высокочастотную составляющую с использованием идентичных модулей. Эта схема создает внутреннюю оптимизационную дилемму: кодирование низкочастотной семантики требует уменьшения высокочастотных компонентов, что создает напряжение между семантическим кодированием и высокочастотным декодированием. Для решения этой проблемы мы предлагаем новый \color{ddtD}разделенный \color{ddtD}диффузионный \color{ddtT}трансформер~(\color{ddtDDT}), с разделенной архитектурой, включающей выделенный кодировщик условий для извлечения семантики и специализированный декодировщик скорости. Наши эксперименты показывают, что более мощный кодировщик приводит к улучшению производительности с увеличением размера модели. Для ImageNet 256×256 наш DDT-XL/2 достигает нового рекордного показателя {1.31 FID}~(почти в 4 раза быстрее сходимости обучения по сравнению с предыдущими диффузионными трансформерами). Для ImageNet 512×512 наш DDT-XL/2 достигает нового рекордного FID 1.28. Кроме того, как полезный побочный эффект, наша разделенная архитектура повышает скорость вывода за счет возможности совместного использования самокондиционирования между соседними шагами удаления шума. Для минимизации снижения производительности мы предлагаем новый подход статистического динамического программирования для определения оптимальных стратегий совместного использования.
English
Diffusion transformers have demonstrated remarkable generation quality,
albeit requiring longer training iterations and numerous inference steps. In
each denoising step, diffusion transformers encode the noisy inputs to extract
the lower-frequency semantic component and then decode the higher frequency
with identical modules. This scheme creates an inherent optimization dilemma:
encoding low-frequency semantics necessitates reducing high-frequency
components, creating tension between semantic encoding and high-frequency
decoding. To resolve this challenge, we propose a new
\color{ddtD}ecoupled \color{ddtD}iffusion
\color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled
design of a dedicated condition encoder for semantic extraction alongside a
specialized velocity decoder. Our experiments reveal that a more substantial
encoder yields performance improvements as model size increases. For ImageNet
256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of
{1.31 FID}~(nearly 4times faster training convergence compared to previous
diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a
new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our
decoupled architecture enhances inference speed by enabling the sharing
self-condition between adjacent denoising steps. To minimize performance
degradation, we propose a novel statistical dynamic programming approach to
identify optimal sharing strategies.Summary
AI-Generated Summary