Difusión FAM: Modulación de Frecuencia y Atención para la Generación de Imágenes de Alta Resolución con Difusión Estable
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion
November 27, 2024
Autores: Haosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Resumen
Los modelos de difusión son eficientes en la generación de imágenes de alta calidad. Sin embargo, son efectivos únicamente al operar en la resolución utilizada durante el entrenamiento. La inferencia a una resolución escalada conduce a patrones repetitivos y distorsiones estructurales. Volver a entrenar a resoluciones más altas rápidamente se vuelve prohibitivo. Por lo tanto, los métodos que permiten que los modelos de difusión preexistentes operen a resoluciones flexibles en tiempo de prueba son altamente deseables. Trabajos previos sufren de artefactos frecuentes y a menudo introducen grandes sobrecargas de latencia. Proponemos dos módulos simples que se combinan para resolver estos problemas. Introducimos un módulo de Modulación de Frecuencia (FM) que aprovecha el dominio de Fourier para mejorar la consistencia de la estructura global, y un módulo de Modulación de Atención (AM) que mejora la consistencia de los patrones de textura locales, un problema ampliamente ignorado en trabajos anteriores. Nuestro método, denominado difusión Fam, puede integrarse perfectamente en cualquier modelo de difusión latente y no requiere entrenamiento adicional. Resultados cualitativos extensos resaltan la efectividad de nuestro método en abordar artefactos estructurales y locales, mientras que los resultados cuantitativos muestran un rendimiento de vanguardia. Además, nuestro método evita trucos de inferencia redundantes para una mayor consistencia, como la generación basada en parches o progresiva, lo que conduce a sobrecargas de latencia despreciables.
English
Diffusion models are proficient at generating high-quality images. They are
however effective only when operating at the resolution used during training.
Inference at a scaled resolution leads to repetitive patterns and structural
distortions. Retraining at higher resolutions quickly becomes prohibitive.
Thus, methods enabling pre-existing diffusion models to operate at flexible
test-time resolutions are highly desirable. Previous works suffer from frequent
artifacts and often introduce large latency overheads. We propose two simple
modules that combine to solve these issues. We introduce a Frequency Modulation
(FM) module that leverages the Fourier domain to improve the global structure
consistency, and an Attention Modulation (AM) module which improves the
consistency of local texture patterns, a problem largely ignored in prior
works. Our method, coined Fam diffusion, can seamlessly integrate into any
latent diffusion model and requires no additional training. Extensive
qualitative results highlight the effectiveness of our method in addressing
structural and local artifacts, while quantitative results show
state-of-the-art performance. Also, our method avoids redundant inference
tricks for improved consistency such as patch-based or progressive generation,
leading to negligible latency overheads.Summary
AI-Generated Summary