Difusão FAM: Modulação de Frequência e Atenção para Geração de Imagens de Alta Resolução com Difusão Estável

Resumo

Os modelos de difusão são proficientes na geração de imagens de alta qualidade. No entanto, eles são eficazes somente ao operar na resolução utilizada durante o treinamento. Inferência em uma resolução escalada resulta em padrões repetitivos e distorções estruturais. O retrinamento em resoluções mais altas rapidamente se torna proibitivo. Portanto, métodos que permitem que modelos de difusão pré-existentes operem em resoluções flexíveis durante o teste são altamente desejáveis. Trabalhos anteriores sofrem de artefatos frequentes e frequentemente introduzem grandes atrasos de latência. Propomos dois módulos simples que se combinam para resolver essas questões. Introduzimos um módulo de Modulação de Frequência (FM) que alavanca o domínio de Fourier para melhorar a consistência da estrutura global, e um módulo de Modulação de Atenção (AM) que melhora a consistência de padrões de textura locais, um problema amplamente ignorado em trabalhos anteriores. Nosso método, denominado difusão Fam, pode ser integrado perfeitamente em qualquer modelo de difusão latente e não requer treinamento adicional. Resultados qualitativos extensivos destacam a eficácia de nosso método na abordagem de artefatos estruturais e locais, enquanto resultados quantitativos mostram desempenho de ponta. Além disso, nosso método evita truques de inferência redundantes para melhorar a consistência, como geração baseada em patches ou progressiva, resultando em atrasos de latência negligenciáveis.

English

Diffusion models are proficient at generating high-quality images. They are however effective only when operating at the resolution used during training. Inference at a scaled resolution leads to repetitive patterns and structural distortions. Retraining at higher resolutions quickly becomes prohibitive. Thus, methods enabling pre-existing diffusion models to operate at flexible test-time resolutions are highly desirable. Previous works suffer from frequent artifacts and often introduce large latency overheads. We propose two simple modules that combine to solve these issues. We introduce a Frequency Modulation (FM) module that leverages the Fourier domain to improve the global structure consistency, and an Attention Modulation (AM) module which improves the consistency of local texture patterns, a problem largely ignored in prior works. Our method, coined Fam diffusion, can seamlessly integrate into any latent diffusion model and requires no additional training. Extensive qualitative results highlight the effectiveness of our method in addressing structural and local artifacts, while quantitative results show state-of-the-art performance. Also, our method avoids redundant inference tricks for improved consistency such as patch-based or progressive generation, leading to negligible latency overheads.

Difusão FAM: Modulação de Frequência e Atenção para Geração de Imagens de Alta Resolução com Difusão Estável

FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Resumo

Support