DDT: Transformador de Difusão Desacoplado

Resumo

Transformadores de difusão têm demonstrado qualidade notável na geração, embora exijam iterações de treinamento mais longas e numerosos passos de inferência. Em cada etapa de remoção de ruído, os transformadores de difusão codificam as entradas ruidosas para extrair o componente semântico de baixa frequência e, em seguida, decodificam a alta frequência com módulos idênticos. Esse esquema cria um dilema de otimização inerente: a codificação de semântica de baixa frequência exige a redução de componentes de alta frequência, gerando uma tensão entre a codificação semântica e a decodificação de alta frequência. Para resolver esse desafio, propomos um novo \color{ddtD}Transformador de Difusão Desacoplado~(\color{ddtDDT}), com um design desacoplado que inclui um codificador de condição dedicado para extração semântica, juntamente com um decodificador de velocidade especializado. Nossos experimentos revelam que um codificador mais robusto resulta em melhorias de desempenho à medida que o tamanho do modelo aumenta. Para ImageNet 256×256, nosso DDT-XL/2 alcança um novo estado da arte com um FID de 1,31 (quase 4 vezes mais rápido na convergência do treinamento em comparação com transformadores de difusão anteriores). Para ImageNet 512×512, nosso DDT-XL/2 atinge um novo recorde de FID de 1,28. Além disso, como um subproduto benéfico, nossa arquitetura desacoplada melhora a velocidade de inferência ao permitir o compartilhamento de auto-condição entre etapas adjacentes de remoção de ruído. Para minimizar a degradação de desempenho, propomos uma nova abordagem de programação dinâmica estatística para identificar estratégias ótimas de compartilhamento.

English

Diffusion transformers have demonstrated remarkable generation quality, albeit requiring longer training iterations and numerous inference steps. In each denoising step, diffusion transformers encode the noisy inputs to extract the lower-frequency semantic component and then decode the higher frequency with identical modules. This scheme creates an inherent optimization dilemma: encoding low-frequency semantics necessitates reducing high-frequency components, creating tension between semantic encoding and high-frequency decoding. To resolve this challenge, we propose a new \color{ddtD}ecoupled \color{ddtD}iffusion \color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled design of a dedicated condition encoder for semantic extraction alongside a specialized velocity decoder. Our experiments reveal that a more substantial encoder yields performance improvements as model size increases. For ImageNet 256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of {1.31 FID}~(nearly 4times faster training convergence compared to previous diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our decoupled architecture enhances inference speed by enabling the sharing self-condition between adjacent denoising steps. To minimize performance degradation, we propose a novel statistical dynamic programming approach to identify optimal sharing strategies.

DDT: Transformador de Difusão Desacoplado

DDT: Decoupled Diffusion Transformer

Resumo

Summary

Support

Support