ChatPaper.aiChatPaper

Diffusion FAM : Modulation de Fréquence et d'Attention pour la Génération d'Images Haute Résolution avec Diffusion Stable

FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

November 27, 2024
Auteurs: Haosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez
cs.AI

Résumé

Les modèles de diffusion sont efficaces pour générer des images de haute qualité. Cependant, ils ne sont performants que lorsqu'ils fonctionnent à la résolution utilisée pendant l'entraînement. L'inférence à une résolution mise à l'échelle entraîne des motifs répétitifs et des distorsions structurelles. La réentraînement à des résolutions plus élevées devient rapidement prohibitif. Ainsi, des méthodes permettant aux modèles de diffusion préexistants de fonctionner à des résolutions flexibles lors des tests sont très souhaitables. Les travaux précédents souffrent de fréquents artefacts et introduisent souvent des surcoûts de latence importants. Nous proposons deux modules simples qui se combinent pour résoudre ces problèmes. Nous introduisons un module de modulation de fréquence (FM) qui exploite le domaine de Fourier pour améliorer la cohérence de la structure globale, et un module de modulation d'attention (AM) qui améliore la cohérence des motifs de texture locaux, un problème largement ignoré dans les travaux antérieurs. Notre méthode, appelée Fam diffusion, peut s'intégrer de manière transparente dans n'importe quel modèle de diffusion latent et ne nécessite aucun entraînement supplémentaire. Des résultats qualitatifs approfondis mettent en évidence l'efficacité de notre méthode pour résoudre les artefacts structurels et locaux, tandis que des résultats quantitatifs montrent des performances de pointe. De plus, notre méthode évite les astuces d'inférence redondantes pour une meilleure cohérence, telles que la génération basée sur des patchs ou progressive, ce qui entraîne des surcoûts de latence négligeables.
English
Diffusion models are proficient at generating high-quality images. They are however effective only when operating at the resolution used during training. Inference at a scaled resolution leads to repetitive patterns and structural distortions. Retraining at higher resolutions quickly becomes prohibitive. Thus, methods enabling pre-existing diffusion models to operate at flexible test-time resolutions are highly desirable. Previous works suffer from frequent artifacts and often introduce large latency overheads. We propose two simple modules that combine to solve these issues. We introduce a Frequency Modulation (FM) module that leverages the Fourier domain to improve the global structure consistency, and an Attention Modulation (AM) module which improves the consistency of local texture patterns, a problem largely ignored in prior works. Our method, coined Fam diffusion, can seamlessly integrate into any latent diffusion model and requires no additional training. Extensive qualitative results highlight the effectiveness of our method in addressing structural and local artifacts, while quantitative results show state-of-the-art performance. Also, our method avoids redundant inference tricks for improved consistency such as patch-based or progressive generation, leading to negligible latency overheads.

Summary

AI-Generated Summary

PDF182December 2, 2024