FAM-diffusie: Frequentie- en Aandachtsmodulatie voor Beeldgeneratie met Hoge Resolutie met Stabiele Diffusie
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion
November 27, 2024
Auteurs: Haosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Samenvatting
Diffusiemodellen zijn bedreven in het genereren van hoogwaardige afbeeldingen. Ze zijn echter alleen effectief wanneer ze werken op de resolutie die tijdens de training is gebruikt. Inferentie op een geschaalde resolutie leidt tot repetitieve patronen en structurele vervormingen. Het opnieuw trainen op hogere resoluties wordt al snel onmogelijk. Daarom zijn methoden die bestaande diffusiemodellen in staat stellen om te werken bij flexibele testtijdsresoluties zeer wenselijk. Eerdere werken hebben last van frequente artefacten en introduceren vaak grote latentie-overhead. We stellen twee eenvoudige modules voor die samen deze problemen oplossen. We introduceren een Frequentiemodulatie (FM) module die het Fourier domein benut om de consistentie van de globale structuur te verbeteren, en een Aandachtsmodulatie (AM) module die de consistentie van lokale textuurpatronen verbetert, een probleem dat grotendeels genegeerd is in eerdere werken. Onze methode, genaamd Fam diffusie, kan naadloos geïntegreerd worden in elk latent diffusiemodel en vereist geen extra training. Uitgebreide kwalitatieve resultaten benadrukken de effectiviteit van onze methode bij het aanpakken van structurele en lokale artefacten, terwijl kwantitatieve resultaten state-of-the-art prestaties aantonen. Bovendien vermijdt onze methode overbodige inferentietrucjes voor verbeterde consistentie zoals op patches gebaseerde of progressieve generatie, wat leidt tot verwaarloosbare latentie-overhead.
English
Diffusion models are proficient at generating high-quality images. They are
however effective only when operating at the resolution used during training.
Inference at a scaled resolution leads to repetitive patterns and structural
distortions. Retraining at higher resolutions quickly becomes prohibitive.
Thus, methods enabling pre-existing diffusion models to operate at flexible
test-time resolutions are highly desirable. Previous works suffer from frequent
artifacts and often introduce large latency overheads. We propose two simple
modules that combine to solve these issues. We introduce a Frequency Modulation
(FM) module that leverages the Fourier domain to improve the global structure
consistency, and an Attention Modulation (AM) module which improves the
consistency of local texture patterns, a problem largely ignored in prior
works. Our method, coined Fam diffusion, can seamlessly integrate into any
latent diffusion model and requires no additional training. Extensive
qualitative results highlight the effectiveness of our method in addressing
structural and local artifacts, while quantitative results show
state-of-the-art performance. Also, our method avoids redundant inference
tricks for improved consistency such as patch-based or progressive generation,
leading to negligible latency overheads.