FAM-diffusie: Frequentie- en Aandachtsmodulatie voor Beeldgeneratie met Hoge Resolutie met Stabiele Diffusie

Samenvatting

Diffusiemodellen zijn bedreven in het genereren van hoogwaardige afbeeldingen. Ze zijn echter alleen effectief wanneer ze werken op de resolutie die tijdens de training is gebruikt. Inferentie op een geschaalde resolutie leidt tot repetitieve patronen en structurele vervormingen. Het opnieuw trainen op hogere resoluties wordt al snel onmogelijk. Daarom zijn methoden die bestaande diffusiemodellen in staat stellen om te werken bij flexibele testtijdsresoluties zeer wenselijk. Eerdere werken hebben last van frequente artefacten en introduceren vaak grote latentie-overhead. We stellen twee eenvoudige modules voor die samen deze problemen oplossen. We introduceren een Frequentiemodulatie (FM) module die het Fourier domein benut om de consistentie van de globale structuur te verbeteren, en een Aandachtsmodulatie (AM) module die de consistentie van lokale textuurpatronen verbetert, een probleem dat grotendeels genegeerd is in eerdere werken. Onze methode, genaamd Fam diffusie, kan naadloos geïntegreerd worden in elk latent diffusiemodel en vereist geen extra training. Uitgebreide kwalitatieve resultaten benadrukken de effectiviteit van onze methode bij het aanpakken van structurele en lokale artefacten, terwijl kwantitatieve resultaten state-of-the-art prestaties aantonen. Bovendien vermijdt onze methode overbodige inferentietrucjes voor verbeterde consistentie zoals op patches gebaseerde of progressieve generatie, wat leidt tot verwaarloosbare latentie-overhead.

English

Diffusion models are proficient at generating high-quality images. They are however effective only when operating at the resolution used during training. Inference at a scaled resolution leads to repetitive patterns and structural distortions. Retraining at higher resolutions quickly becomes prohibitive. Thus, methods enabling pre-existing diffusion models to operate at flexible test-time resolutions are highly desirable. Previous works suffer from frequent artifacts and often introduce large latency overheads. We propose two simple modules that combine to solve these issues. We introduce a Frequency Modulation (FM) module that leverages the Fourier domain to improve the global structure consistency, and an Attention Modulation (AM) module which improves the consistency of local texture patterns, a problem largely ignored in prior works. Our method, coined Fam diffusion, can seamlessly integrate into any latent diffusion model and requires no additional training. Extensive qualitative results highlight the effectiveness of our method in addressing structural and local artifacts, while quantitative results show state-of-the-art performance. Also, our method avoids redundant inference tricks for improved consistency such as patch-based or progressive generation, leading to negligible latency overheads.

FAM-diffusie: Frequentie- en Aandachtsmodulatie voor Beeldgeneratie met Hoge Resolutie met Stabiele Diffusie

FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Samenvatting

Support