DDT: Transformador de Difusão Desacoplado
DDT: Decoupled Diffusion Transformer
April 8, 2025
Autores: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
cs.AI
Resumo
Transformadores de difusão têm demonstrado qualidade notável na geração, embora exijam iterações de treinamento mais longas e numerosos passos de inferência. Em cada etapa de remoção de ruído, os transformadores de difusão codificam as entradas ruidosas para extrair o componente semântico de baixa frequência e, em seguida, decodificam a alta frequência com módulos idênticos. Esse esquema cria um dilema de otimização inerente: a codificação de semântica de baixa frequência exige a redução de componentes de alta frequência, gerando uma tensão entre a codificação semântica e a decodificação de alta frequência. Para resolver esse desafio, propomos um novo \color{ddtD}Transformador de Difusão Desacoplado~(\color{ddtDDT}), com um design desacoplado que inclui um codificador de condição dedicado para extração semântica, juntamente com um decodificador de velocidade especializado. Nossos experimentos revelam que um codificador mais robusto resulta em melhorias de desempenho à medida que o tamanho do modelo aumenta. Para ImageNet 256×256, nosso DDT-XL/2 alcança um novo estado da arte com um FID de 1,31 (quase 4 vezes mais rápido na convergência do treinamento em comparação com transformadores de difusão anteriores). Para ImageNet 512×512, nosso DDT-XL/2 atinge um novo recorde de FID de 1,28. Além disso, como um subproduto benéfico, nossa arquitetura desacoplada melhora a velocidade de inferência ao permitir o compartilhamento de auto-condição entre etapas adjacentes de remoção de ruído. Para minimizar a degradação de desempenho, propomos uma nova abordagem de programação dinâmica estatística para identificar estratégias ótimas de compartilhamento.
English
Diffusion transformers have demonstrated remarkable generation quality,
albeit requiring longer training iterations and numerous inference steps. In
each denoising step, diffusion transformers encode the noisy inputs to extract
the lower-frequency semantic component and then decode the higher frequency
with identical modules. This scheme creates an inherent optimization dilemma:
encoding low-frequency semantics necessitates reducing high-frequency
components, creating tension between semantic encoding and high-frequency
decoding. To resolve this challenge, we propose a new
\color{ddtD}ecoupled \color{ddtD}iffusion
\color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled
design of a dedicated condition encoder for semantic extraction alongside a
specialized velocity decoder. Our experiments reveal that a more substantial
encoder yields performance improvements as model size increases. For ImageNet
256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of
{1.31 FID}~(nearly 4times faster training convergence compared to previous
diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a
new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our
decoupled architecture enhances inference speed by enabling the sharing
self-condition between adjacent denoising steps. To minimize performance
degradation, we propose a novel statistical dynamic programming approach to
identify optimal sharing strategies.Summary
AI-Generated Summary