Диффузия FAM: Частотная и модуляция внимания для генерации изображений высокого разрешения с устойчивой диффузией
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion
November 27, 2024
Авторы: Haosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Аннотация
Модели диффузии проявляют высокую эффективность в генерации изображений высокого качества. Однако они эффективны только при работе на разрешении, использованном во время обучения. Инференция на масштабированном разрешении приводит к повторяющимся узорам и структурным искажениям. Повторное обучение на более высоких разрешениях быстро становится невозможным. Таким образом, методы, позволяющие существующим моделям диффузии работать на гибких разрешениях во время тестирования, являются весьма желанными. Предыдущие работы страдают от частых артефактов и часто вносят значительные задержки. Мы предлагаем два простых модуля, которые в совокупности решают эти проблемы. Мы представляем модуль частотной модуляции (FM), который использует преобразование Фурье для улучшения глобальной структурной согласованности, и модуль модуляции внимания (AM), который улучшает согласованность локальных текстурных узоров, проблему, в значительной степени игнорируемую в предыдущих работах. Наш метод, названный Fam diffusion, может легко интегрироваться в любую модель диффузии латентного пространства и не требует дополнительного обучения. Обширные качественные результаты подчеркивают эффективность нашего метода в решении структурных и локальных артефактов, в то время как количественные результаты показывают современное качество работы. Кроме того, наш метод избегает избыточных трюков вывода для улучшения согласованности, таких как генерация на основе патчей или прогрессивная генерация, что приводит к незначительным задержкам.
English
Diffusion models are proficient at generating high-quality images. They are
however effective only when operating at the resolution used during training.
Inference at a scaled resolution leads to repetitive patterns and structural
distortions. Retraining at higher resolutions quickly becomes prohibitive.
Thus, methods enabling pre-existing diffusion models to operate at flexible
test-time resolutions are highly desirable. Previous works suffer from frequent
artifacts and often introduce large latency overheads. We propose two simple
modules that combine to solve these issues. We introduce a Frequency Modulation
(FM) module that leverages the Fourier domain to improve the global structure
consistency, and an Attention Modulation (AM) module which improves the
consistency of local texture patterns, a problem largely ignored in prior
works. Our method, coined Fam diffusion, can seamlessly integrate into any
latent diffusion model and requires no additional training. Extensive
qualitative results highlight the effectiveness of our method in addressing
structural and local artifacts, while quantitative results show
state-of-the-art performance. Also, our method avoids redundant inference
tricks for improved consistency such as patch-based or progressive generation,
leading to negligible latency overheads.Summary
AI-Generated Summary