FouriScale: Een frequentieperspectief op training-vrije hoog-resolutie beeldgeneratie
FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis
March 19, 2024
Auteurs: Linjiang Huang, Rongyao Fang, Aiping Zhang, Guanglu Song, Si Liu, Yu Liu, Hongsheng Li
cs.AI
Samenvatting
In deze studie verdiepen we ons in het genereren van hoogwaardige afbeeldingen met behulp van vooraf getrainde diffusiemodellen, waarbij we aanhoudende uitdagingen aanpakken, zoals repetitieve patronen en structurele vervormingen, die ontstaan wanneer modellen worden toegepast buiten hun getrainde resoluties. Om dit probleem op te lossen, introduceren we een innovatieve, trainingsvrije aanpak genaamd FouriScale vanuit het perspectief van frequentiedomeinanalyse. We vervangen de oorspronkelijke convolutielagen in vooraf getrainde diffusiemodellen door het integreren van een dilatietechniek in combinatie met een laagdoorlaatoperatie, met als doel respectievelijk structurele consistentie en schaalconsistentie over verschillende resoluties te bereiken. Versterkt door een padding-then-crop strategie, kan onze methode flexibel omgaan met tekst-naar-afbeelding generatie van diverse beeldverhoudingen. Door FouriScale als leidraad te gebruiken, slaagt onze methode erin de structurele integriteit en de getrouwheid van gegenereerde afbeeldingen in balans te brengen, wat resulteert in een verbazingwekkende capaciteit voor het genereren van afbeeldingen van willekeurige grootte, hoge resolutie en hoge kwaliteit. Met zijn eenvoud en compatibiliteit kan onze methode waardevolle inzichten bieden voor toekomstige verkenningen naar de synthese van ultrahoogwaardige afbeeldingen. De code zal worden vrijgegeven op https://github.com/LeonHLJ/FouriScale.
English
In this study, we delve into the generation of high-resolution images from
pre-trained diffusion models, addressing persistent challenges, such as
repetitive patterns and structural distortions, that emerge when models are
applied beyond their trained resolutions. To address this issue, we introduce
an innovative, training-free approach FouriScale from the perspective of
frequency domain analysis. We replace the original convolutional layers in
pre-trained diffusion models by incorporating a dilation technique along with a
low-pass operation, intending to achieve structural consistency and scale
consistency across resolutions, respectively. Further enhanced by a
padding-then-crop strategy, our method can flexibly handle text-to-image
generation of various aspect ratios. By using the FouriScale as guidance, our
method successfully balances the structural integrity and fidelity of generated
images, achieving an astonishing capacity of arbitrary-size, high-resolution,
and high-quality generation. With its simplicity and compatibility, our method
can provide valuable insights for future explorations into the synthesis of
ultra-high-resolution images. The code will be released at
https://github.com/LeonHLJ/FouriScale.