DDT: Transformador de Difusão DesacopladoDDT: Decoupled Diffusion Transformer
Transformadores de difusão têm demonstrado qualidade notável na geração, embora exijam iterações de treinamento mais longas e numerosos passos de inferência. Em cada etapa de remoção de ruído, os transformadores de difusão codificam as entradas ruidosas para extrair o componente semântico de baixa frequência e, em seguida, decodificam a alta frequência com módulos idênticos. Esse esquema cria um dilema de otimização inerente: a codificação de semântica de baixa frequência exige a redução de componentes de alta frequência, gerando uma tensão entre a codificação semântica e a decodificação de alta frequência. Para resolver esse desafio, propomos um novo \color{ddtD}Transformador de Difusão Desacoplado~(\color{ddtDDT}), com um design desacoplado que inclui um codificador de condição dedicado para extração semântica, juntamente com um decodificador de velocidade especializado. Nossos experimentos revelam que um codificador mais robusto resulta em melhorias de desempenho à medida que o tamanho do modelo aumenta. Para ImageNet 256×256, nosso DDT-XL/2 alcança um novo estado da arte com um FID de 1,31 (quase 4 vezes mais rápido na convergência do treinamento em comparação com transformadores de difusão anteriores). Para ImageNet 512×512, nosso DDT-XL/2 atinge um novo recorde de FID de 1,28. Além disso, como um subproduto benéfico, nossa arquitetura desacoplada melhora a velocidade de inferência ao permitir o compartilhamento de auto-condição entre etapas adjacentes de remoção de ruído. Para minimizar a degradação de desempenho, propomos uma nova abordagem de programação dinâmica estatística para identificar estratégias ótimas de compartilhamento.