Difusión FAM: Modulación de Frecuencia y Atención para la Generación de Imágenes de Alta Resolución con Difusión Estable

Resumen

Los modelos de difusión son eficientes en la generación de imágenes de alta calidad. Sin embargo, son efectivos únicamente al operar en la resolución utilizada durante el entrenamiento. La inferencia a una resolución escalada conduce a patrones repetitivos y distorsiones estructurales. Volver a entrenar a resoluciones más altas rápidamente se vuelve prohibitivo. Por lo tanto, los métodos que permiten que los modelos de difusión preexistentes operen a resoluciones flexibles en tiempo de prueba son altamente deseables. Trabajos previos sufren de artefactos frecuentes y a menudo introducen grandes sobrecargas de latencia. Proponemos dos módulos simples que se combinan para resolver estos problemas. Introducimos un módulo de Modulación de Frecuencia (FM) que aprovecha el dominio de Fourier para mejorar la consistencia de la estructura global, y un módulo de Modulación de Atención (AM) que mejora la consistencia de los patrones de textura locales, un problema ampliamente ignorado en trabajos anteriores. Nuestro método, denominado difusión Fam, puede integrarse perfectamente en cualquier modelo de difusión latente y no requiere entrenamiento adicional. Resultados cualitativos extensos resaltan la efectividad de nuestro método en abordar artefactos estructurales y locales, mientras que los resultados cuantitativos muestran un rendimiento de vanguardia. Además, nuestro método evita trucos de inferencia redundantes para una mayor consistencia, como la generación basada en parches o progresiva, lo que conduce a sobrecargas de latencia despreciables.

English

Diffusion models are proficient at generating high-quality images. They are however effective only when operating at the resolution used during training. Inference at a scaled resolution leads to repetitive patterns and structural distortions. Retraining at higher resolutions quickly becomes prohibitive. Thus, methods enabling pre-existing diffusion models to operate at flexible test-time resolutions are highly desirable. Previous works suffer from frequent artifacts and often introduce large latency overheads. We propose two simple modules that combine to solve these issues. We introduce a Frequency Modulation (FM) module that leverages the Fourier domain to improve the global structure consistency, and an Attention Modulation (AM) module which improves the consistency of local texture patterns, a problem largely ignored in prior works. Our method, coined Fam diffusion, can seamlessly integrate into any latent diffusion model and requires no additional training. Extensive qualitative results highlight the effectiveness of our method in addressing structural and local artifacts, while quantitative results show state-of-the-art performance. Also, our method avoids redundant inference tricks for improved consistency such as patch-based or progressive generation, leading to negligible latency overheads.

Difusión FAM: Modulación de Frecuencia y Atención para la Generación de Imágenes de Alta Resolución con Difusión Estable

FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Resumen

Support