FAM-Diffusion: Frequenz- und Aufmerksamkeitsmodulation für die Generierung hochauflösender Bilder mit stabiler Diffusion

papers.abstract

Diffusionsmodelle sind effizient bei der Erzeugung hochwertiger Bilder. Sie sind jedoch nur wirksam, wenn sie mit der Auflösung arbeiten, die während des Trainings verwendet wurde. Inferenz bei skalierten Auflösungen führt zu sich wiederholenden Mustern und strukturellen Verzerrungen. Ein erneutes Training bei höheren Auflösungen wird schnell unerschwinglich. Daher sind Methoden, die es bereits vorhandenen Diffusionsmodellen ermöglichen, bei flexiblen Testzeitauflösungen zu arbeiten, äußerst wünschenswert. Frühere Arbeiten leiden unter häufigen Artefakten und führen oft zu großen Latenzzeiten. Wir schlagen zwei einfache Module vor, die kombiniert werden, um diese Probleme zu lösen. Wir führen ein Frequenzmodulations (FM)-Modul ein, das die Fourier-Domäne nutzt, um die globale Strukturkonsistenz zu verbessern, und ein Aufmerksamkeitsmodulations (AM)-Modul, das die Konsistenz lokaler Texturmuster verbessert, ein Problem, das in früheren Arbeiten weitgehend ignoriert wurde. Unsere Methode, genannt Fam-Diffusion, kann nahtlos in jedes latente Diffusionsmodell integriert werden und erfordert kein zusätzliches Training. Umfangreiche qualitative Ergebnisse heben die Wirksamkeit unserer Methode bei der Bewältigung struktureller und lokaler Artefakte hervor, während quantitative Ergebnisse eine Spitzenleistung zeigen. Außerdem vermeidet unsere Methode redundante Inferenztricks zur Verbesserung der Konsistenz, wie etwa patchbasierte oder progressive Generierung, was zu vernachlässigbaren Latenzzeiten führt.

English

Diffusion models are proficient at generating high-quality images. They are however effective only when operating at the resolution used during training. Inference at a scaled resolution leads to repetitive patterns and structural distortions. Retraining at higher resolutions quickly becomes prohibitive. Thus, methods enabling pre-existing diffusion models to operate at flexible test-time resolutions are highly desirable. Previous works suffer from frequent artifacts and often introduce large latency overheads. We propose two simple modules that combine to solve these issues. We introduce a Frequency Modulation (FM) module that leverages the Fourier domain to improve the global structure consistency, and an Attention Modulation (AM) module which improves the consistency of local texture patterns, a problem largely ignored in prior works. Our method, coined Fam diffusion, can seamlessly integrate into any latent diffusion model and requires no additional training. Extensive qualitative results highlight the effectiveness of our method in addressing structural and local artifacts, while quantitative results show state-of-the-art performance. Also, our method avoids redundant inference tricks for improved consistency such as patch-based or progressive generation, leading to negligible latency overheads.

FAM-Diffusion: Frequenz- und Aufmerksamkeitsmodulation für die Generierung hochauflösender Bilder mit stabiler Diffusion

FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

papers.abstract

Support