FouriScale: Una Prospettiva in Frequenza sulla Sintesi di Immagini ad Alta Risoluzione Senza Addestramento
FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis
March 19, 2024
Autori: Linjiang Huang, Rongyao Fang, Aiping Zhang, Guanglu Song, Si Liu, Yu Liu, Hongsheng Li
cs.AI
Abstract
In questo studio, approfondiamo la generazione di immagini ad alta risoluzione da modelli di diffusione pre-addestrati, affrontando sfide persistenti, come pattern ripetitivi e distorsioni strutturali, che emergono quando i modelli vengono applicati oltre le risoluzioni per cui sono stati addestrati. Per risolvere questo problema, introduciamo un approccio innovativo e senza addestramento, chiamato FouriScale, basato sull'analisi nel dominio della frequenza. Sostituiamo i livelli convoluzionali originali nei modelli di diffusione pre-addestrati incorporando una tecnica di dilatazione insieme a un'operazione di filtraggio passa-basso, con l'obiettivo di ottenere rispettivamente coerenza strutturale e coerenza di scala tra le diverse risoluzioni. Ulteriormente migliorato da una strategia di padding seguito da ritaglio, il nostro metodo può gestire in modo flessibile la generazione di immagini da testo con vari rapporti d'aspetto. Utilizzando FouriScale come guida, il nostro metodo bilancia con successo l'integrità strutturale e la fedeltà delle immagini generate, raggiungendo una capacità sorprendente di generazione di immagini ad alta risoluzione e di alta qualità di dimensioni arbitrarie. Grazie alla sua semplicità e compatibilità, il nostro metodo può fornire spunti preziosi per future esplorazioni nella sintesi di immagini a risoluzione ultra-elevata. Il codice sarà rilasciato su https://github.com/LeonHLJ/FouriScale.
English
In this study, we delve into the generation of high-resolution images from
pre-trained diffusion models, addressing persistent challenges, such as
repetitive patterns and structural distortions, that emerge when models are
applied beyond their trained resolutions. To address this issue, we introduce
an innovative, training-free approach FouriScale from the perspective of
frequency domain analysis. We replace the original convolutional layers in
pre-trained diffusion models by incorporating a dilation technique along with a
low-pass operation, intending to achieve structural consistency and scale
consistency across resolutions, respectively. Further enhanced by a
padding-then-crop strategy, our method can flexibly handle text-to-image
generation of various aspect ratios. By using the FouriScale as guidance, our
method successfully balances the structural integrity and fidelity of generated
images, achieving an astonishing capacity of arbitrary-size, high-resolution,
and high-quality generation. With its simplicity and compatibility, our method
can provide valuable insights for future explorations into the synthesis of
ultra-high-resolution images. The code will be released at
https://github.com/LeonHLJ/FouriScale.