FAM-Diffusion: Frequenz- und Aufmerksamkeitsmodulation für die Generierung hochauflösender Bilder mit stabiler Diffusion
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion
November 27, 2024
Autoren: Haosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Zusammenfassung
Diffusionsmodelle sind effizient bei der Erzeugung hochwertiger Bilder. Sie sind jedoch nur wirksam, wenn sie mit der Auflösung arbeiten, die während des Trainings verwendet wurde. Inferenz bei skalierten Auflösungen führt zu sich wiederholenden Mustern und strukturellen Verzerrungen. Ein erneutes Training bei höheren Auflösungen wird schnell unerschwinglich. Daher sind Methoden, die es bereits vorhandenen Diffusionsmodellen ermöglichen, bei flexiblen Testzeitauflösungen zu arbeiten, äußerst wünschenswert. Frühere Arbeiten leiden unter häufigen Artefakten und führen oft zu großen Latenzzeiten. Wir schlagen zwei einfache Module vor, die kombiniert werden, um diese Probleme zu lösen. Wir führen ein Frequenzmodulations (FM)-Modul ein, das die Fourier-Domäne nutzt, um die globale Strukturkonsistenz zu verbessern, und ein Aufmerksamkeitsmodulations (AM)-Modul, das die Konsistenz lokaler Texturmuster verbessert, ein Problem, das in früheren Arbeiten weitgehend ignoriert wurde. Unsere Methode, genannt Fam-Diffusion, kann nahtlos in jedes latente Diffusionsmodell integriert werden und erfordert kein zusätzliches Training. Umfangreiche qualitative Ergebnisse heben die Wirksamkeit unserer Methode bei der Bewältigung struktureller und lokaler Artefakte hervor, während quantitative Ergebnisse eine Spitzenleistung zeigen. Außerdem vermeidet unsere Methode redundante Inferenztricks zur Verbesserung der Konsistenz, wie etwa patchbasierte oder progressive Generierung, was zu vernachlässigbaren Latenzzeiten führt.
English
Diffusion models are proficient at generating high-quality images. They are
however effective only when operating at the resolution used during training.
Inference at a scaled resolution leads to repetitive patterns and structural
distortions. Retraining at higher resolutions quickly becomes prohibitive.
Thus, methods enabling pre-existing diffusion models to operate at flexible
test-time resolutions are highly desirable. Previous works suffer from frequent
artifacts and often introduce large latency overheads. We propose two simple
modules that combine to solve these issues. We introduce a Frequency Modulation
(FM) module that leverages the Fourier domain to improve the global structure
consistency, and an Attention Modulation (AM) module which improves the
consistency of local texture patterns, a problem largely ignored in prior
works. Our method, coined Fam diffusion, can seamlessly integrate into any
latent diffusion model and requires no additional training. Extensive
qualitative results highlight the effectiveness of our method in addressing
structural and local artifacts, while quantitative results show
state-of-the-art performance. Also, our method avoids redundant inference
tricks for improved consistency such as patch-based or progressive generation,
leading to negligible latency overheads.Summary
AI-Generated Summary