Aliviando a Distorção na Geração de Imagens por meio de Modelos de Difusão Multi-Resolução
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models
June 13, 2024
Autores: Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Resumo
Este artigo apresenta aprimoramentos inovadores aos modelos de difusão por meio da integração de uma nova rede de múltiplas resoluções e normalização de camada dependente do tempo. Os modelos de difusão ganharam destaque por sua eficácia na geração de imagens de alta fidelidade. Enquanto abordagens convencionais dependem de arquiteturas U-Net convolucionais, projetos recentes baseados em Transformers demonstraram desempenho e escalabilidade superiores. No entanto, as arquiteturas Transformer, que tokenizam os dados de entrada (via "patchificação"), enfrentam um trade-off entre fidelidade visual e complexidade computacional devido à natureza quadrática das operações de autoatenção em relação ao comprimento dos tokens. Embora tamanhos maiores de patches permitam eficiência no cálculo da atenção, eles têm dificuldade em capturar detalhes visuais refinados, levando a distorções nas imagens. Para abordar esse desafio, propomos aprimorar o modelo de difusão com a rede de Múltiplas Resoluções (DiMR), uma estrutura que refina características em múltiplas resoluções, aprimorando progressivamente os detalhes de baixa para alta resolução. Além disso, introduzimos a Normalização de Camada Dependente do Tempo (TD-LN), uma abordagem eficiente em parâmetros que incorpora parâmetros dependentes do tempo na normalização de camada para injetar informações temporais e alcançar desempenho superior. A eficácia do nosso método é demonstrada no benchmark de geração condicional por classe do ImageNet, onde as variantes DiMR-XL superam modelos de difusão anteriores, estabelecendo novos recordes de pontuação FID de 1,70 no ImageNet 256 x 256 e 2,89 no ImageNet 512 x 512. Página do projeto: https://qihao067.github.io/projects/DiMR.
English
This paper presents innovative enhancements to diffusion models by
integrating a novel multi-resolution network and time-dependent layer
normalization. Diffusion models have gained prominence for their effectiveness
in high-fidelity image generation. While conventional approaches rely on
convolutional U-Net architectures, recent Transformer-based designs have
demonstrated superior performance and scalability. However, Transformer
architectures, which tokenize input data (via "patchification"), face a
trade-off between visual fidelity and computational complexity due to the
quadratic nature of self-attention operations concerning token length. While
larger patch sizes enable attention computation efficiency, they struggle to
capture fine-grained visual details, leading to image distortions. To address
this challenge, we propose augmenting the Diffusion model with the
Multi-Resolution network (DiMR), a framework that refines features across
multiple resolutions, progressively enhancing detail from low to high
resolution. Additionally, we introduce Time-Dependent Layer Normalization
(TD-LN), a parameter-efficient approach that incorporates time-dependent
parameters into layer normalization to inject time information and achieve
superior performance. Our method's efficacy is demonstrated on the
class-conditional ImageNet generation benchmark, where DiMR-XL variants
outperform prior diffusion models, setting new state-of-the-art FID scores of
1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page:
https://qihao067.github.io/projects/DiMR