FouriScale: Una Prospettiva in Frequenza sulla Sintesi di Immagini ad Alta Risoluzione Senza Addestramento

Abstract

In questo studio, approfondiamo la generazione di immagini ad alta risoluzione da modelli di diffusione pre-addestrati, affrontando sfide persistenti, come pattern ripetitivi e distorsioni strutturali, che emergono quando i modelli vengono applicati oltre le risoluzioni per cui sono stati addestrati. Per risolvere questo problema, introduciamo un approccio innovativo e senza addestramento, chiamato FouriScale, basato sull'analisi nel dominio della frequenza. Sostituiamo i livelli convoluzionali originali nei modelli di diffusione pre-addestrati incorporando una tecnica di dilatazione insieme a un'operazione di filtraggio passa-basso, con l'obiettivo di ottenere rispettivamente coerenza strutturale e coerenza di scala tra le diverse risoluzioni. Ulteriormente migliorato da una strategia di padding seguito da ritaglio, il nostro metodo può gestire in modo flessibile la generazione di immagini da testo con vari rapporti d'aspetto. Utilizzando FouriScale come guida, il nostro metodo bilancia con successo l'integrità strutturale e la fedeltà delle immagini generate, raggiungendo una capacità sorprendente di generazione di immagini ad alta risoluzione e di alta qualità di dimensioni arbitrarie. Grazie alla sua semplicità e compatibilità, il nostro metodo può fornire spunti preziosi per future esplorazioni nella sintesi di immagini a risoluzione ultra-elevata. Il codice sarà rilasciato su https://github.com/LeonHLJ/FouriScale.

English

In this study, we delve into the generation of high-resolution images from pre-trained diffusion models, addressing persistent challenges, such as repetitive patterns and structural distortions, that emerge when models are applied beyond their trained resolutions. To address this issue, we introduce an innovative, training-free approach FouriScale from the perspective of frequency domain analysis. We replace the original convolutional layers in pre-trained diffusion models by incorporating a dilation technique along with a low-pass operation, intending to achieve structural consistency and scale consistency across resolutions, respectively. Further enhanced by a padding-then-crop strategy, our method can flexibly handle text-to-image generation of various aspect ratios. By using the FouriScale as guidance, our method successfully balances the structural integrity and fidelity of generated images, achieving an astonishing capacity of arbitrary-size, high-resolution, and high-quality generation. With its simplicity and compatibility, our method can provide valuable insights for future explorations into the synthesis of ultra-high-resolution images. The code will be released at https://github.com/LeonHLJ/FouriScale.

FouriScale: Una Prospettiva in Frequenza sulla Sintesi di Immagini ad Alta Risoluzione Senza Addestramento

FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

Abstract

Support