Aliviando a Distorção na Geração de Imagens por meio de Modelos de Difusão Multi-Resolução

Resumo

Este artigo apresenta aprimoramentos inovadores aos modelos de difusão por meio da integração de uma nova rede de múltiplas resoluções e normalização de camada dependente do tempo. Os modelos de difusão ganharam destaque por sua eficácia na geração de imagens de alta fidelidade. Enquanto abordagens convencionais dependem de arquiteturas U-Net convolucionais, projetos recentes baseados em Transformers demonstraram desempenho e escalabilidade superiores. No entanto, as arquiteturas Transformer, que tokenizam os dados de entrada (via "patchificação"), enfrentam um trade-off entre fidelidade visual e complexidade computacional devido à natureza quadrática das operações de autoatenção em relação ao comprimento dos tokens. Embora tamanhos maiores de patches permitam eficiência no cálculo da atenção, eles têm dificuldade em capturar detalhes visuais refinados, levando a distorções nas imagens. Para abordar esse desafio, propomos aprimorar o modelo de difusão com a rede de Múltiplas Resoluções (DiMR), uma estrutura que refina características em múltiplas resoluções, aprimorando progressivamente os detalhes de baixa para alta resolução. Além disso, introduzimos a Normalização de Camada Dependente do Tempo (TD-LN), uma abordagem eficiente em parâmetros que incorpora parâmetros dependentes do tempo na normalização de camada para injetar informações temporais e alcançar desempenho superior. A eficácia do nosso método é demonstrada no benchmark de geração condicional por classe do ImageNet, onde as variantes DiMR-XL superam modelos de difusão anteriores, estabelecendo novos recordes de pontuação FID de 1,70 no ImageNet 256 x 256 e 2,89 no ImageNet 512 x 512. Página do projeto: https://qihao067.github.io/projects/DiMR.

English

This paper presents innovative enhancements to diffusion models by integrating a novel multi-resolution network and time-dependent layer normalization. Diffusion models have gained prominence for their effectiveness in high-fidelity image generation. While conventional approaches rely on convolutional U-Net architectures, recent Transformer-based designs have demonstrated superior performance and scalability. However, Transformer architectures, which tokenize input data (via "patchification"), face a trade-off between visual fidelity and computational complexity due to the quadratic nature of self-attention operations concerning token length. While larger patch sizes enable attention computation efficiency, they struggle to capture fine-grained visual details, leading to image distortions. To address this challenge, we propose augmenting the Diffusion model with the Multi-Resolution network (DiMR), a framework that refines features across multiple resolutions, progressively enhancing detail from low to high resolution. Additionally, we introduce Time-Dependent Layer Normalization (TD-LN), a parameter-efficient approach that incorporates time-dependent parameters into layer normalization to inject time information and achieve superior performance. Our method's efficacy is demonstrated on the class-conditional ImageNet generation benchmark, where DiMR-XL variants outperform prior diffusion models, setting new state-of-the-art FID scores of 1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page: https://qihao067.github.io/projects/DiMR

Aliviando a Distorção na Geração de Imagens por meio de Modelos de Difusão Multi-Resolução

Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

Resumo

Support