Difusão FAM: Modulação de Frequência e Atenção para Geração de Imagens de Alta Resolução com Difusão Estável
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion
November 27, 2024
Autores: Haosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Resumo
Os modelos de difusão são proficientes na geração de imagens de alta qualidade. No entanto, eles são eficazes somente ao operar na resolução utilizada durante o treinamento. Inferência em uma resolução escalada resulta em padrões repetitivos e distorções estruturais. O retrinamento em resoluções mais altas rapidamente se torna proibitivo. Portanto, métodos que permitem que modelos de difusão pré-existentes operem em resoluções flexíveis durante o teste são altamente desejáveis. Trabalhos anteriores sofrem de artefatos frequentes e frequentemente introduzem grandes atrasos de latência. Propomos dois módulos simples que se combinam para resolver essas questões. Introduzimos um módulo de Modulação de Frequência (FM) que alavanca o domínio de Fourier para melhorar a consistência da estrutura global, e um módulo de Modulação de Atenção (AM) que melhora a consistência de padrões de textura locais, um problema amplamente ignorado em trabalhos anteriores. Nosso método, denominado difusão Fam, pode ser integrado perfeitamente em qualquer modelo de difusão latente e não requer treinamento adicional. Resultados qualitativos extensivos destacam a eficácia de nosso método na abordagem de artefatos estruturais e locais, enquanto resultados quantitativos mostram desempenho de ponta. Além disso, nosso método evita truques de inferência redundantes para melhorar a consistência, como geração baseada em patches ou progressiva, resultando em atrasos de latência negligenciáveis.
English
Diffusion models are proficient at generating high-quality images. They are
however effective only when operating at the resolution used during training.
Inference at a scaled resolution leads to repetitive patterns and structural
distortions. Retraining at higher resolutions quickly becomes prohibitive.
Thus, methods enabling pre-existing diffusion models to operate at flexible
test-time resolutions are highly desirable. Previous works suffer from frequent
artifacts and often introduce large latency overheads. We propose two simple
modules that combine to solve these issues. We introduce a Frequency Modulation
(FM) module that leverages the Fourier domain to improve the global structure
consistency, and an Attention Modulation (AM) module which improves the
consistency of local texture patterns, a problem largely ignored in prior
works. Our method, coined Fam diffusion, can seamlessly integrate into any
latent diffusion model and requires no additional training. Extensive
qualitative results highlight the effectiveness of our method in addressing
structural and local artifacts, while quantitative results show
state-of-the-art performance. Also, our method avoids redundant inference
tricks for improved consistency such as patch-based or progressive generation,
leading to negligible latency overheads.Summary
AI-Generated Summary