FouriScale: Een frequentieperspectief op training-vrije hoog-resolutie beeldgeneratie

Samenvatting

In deze studie verdiepen we ons in het genereren van hoogwaardige afbeeldingen met behulp van vooraf getrainde diffusiemodellen, waarbij we aanhoudende uitdagingen aanpakken, zoals repetitieve patronen en structurele vervormingen, die ontstaan wanneer modellen worden toegepast buiten hun getrainde resoluties. Om dit probleem op te lossen, introduceren we een innovatieve, trainingsvrije aanpak genaamd FouriScale vanuit het perspectief van frequentiedomeinanalyse. We vervangen de oorspronkelijke convolutielagen in vooraf getrainde diffusiemodellen door het integreren van een dilatietechniek in combinatie met een laagdoorlaatoperatie, met als doel respectievelijk structurele consistentie en schaalconsistentie over verschillende resoluties te bereiken. Versterkt door een padding-then-crop strategie, kan onze methode flexibel omgaan met tekst-naar-afbeelding generatie van diverse beeldverhoudingen. Door FouriScale als leidraad te gebruiken, slaagt onze methode erin de structurele integriteit en de getrouwheid van gegenereerde afbeeldingen in balans te brengen, wat resulteert in een verbazingwekkende capaciteit voor het genereren van afbeeldingen van willekeurige grootte, hoge resolutie en hoge kwaliteit. Met zijn eenvoud en compatibiliteit kan onze methode waardevolle inzichten bieden voor toekomstige verkenningen naar de synthese van ultrahoogwaardige afbeeldingen. De code zal worden vrijgegeven op https://github.com/LeonHLJ/FouriScale.

English

In this study, we delve into the generation of high-resolution images from pre-trained diffusion models, addressing persistent challenges, such as repetitive patterns and structural distortions, that emerge when models are applied beyond their trained resolutions. To address this issue, we introduce an innovative, training-free approach FouriScale from the perspective of frequency domain analysis. We replace the original convolutional layers in pre-trained diffusion models by incorporating a dilation technique along with a low-pass operation, intending to achieve structural consistency and scale consistency across resolutions, respectively. Further enhanced by a padding-then-crop strategy, our method can flexibly handle text-to-image generation of various aspect ratios. By using the FouriScale as guidance, our method successfully balances the structural integrity and fidelity of generated images, achieving an astonishing capacity of arbitrary-size, high-resolution, and high-quality generation. With its simplicity and compatibility, our method can provide valuable insights for future explorations into the synthesis of ultra-high-resolution images. The code will be released at https://github.com/LeonHLJ/FouriScale.

FouriScale: Een frequentieperspectief op training-vrije hoog-resolutie beeldgeneratie

FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

Samenvatting

Support