ChatPaper.aiChatPaper

FouriScale: Uma Perspectiva de Frequência para a Síntese de Imagens de Alta Resolução sem Treinamento

FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

March 19, 2024
Autores: Linjiang Huang, Rongyao Fang, Aiping Zhang, Guanglu Song, Si Liu, Yu Liu, Hongsheng Li
cs.AI

Resumo

Neste estudo, aprofundamo-nos na geração de imagens de alta resolução a partir de modelos de difusão pré-treinados, abordando desafios persistentes, como padrões repetitivos e distorções estruturais, que surgem quando os modelos são aplicados além de suas resoluções de treinamento. Para resolver esse problema, introduzimos uma abordagem inovadora e livre de treinamento, chamada FouriScale, a partir da perspectiva da análise do domínio da frequência. Substituímos as camadas convolucionais originais nos modelos de difusão pré-treinados, incorporando uma técnica de dilatação juntamente com uma operação de passa-baixa, visando alcançar consistência estrutural e consistência de escala entre diferentes resoluções, respectivamente. Aprimorado ainda mais por uma estratégia de preenchimento e corte, nosso método pode lidar de forma flexível com a geração de imagens a partir de texto em várias proporções. Ao utilizar o FouriScale como guia, nosso método equilibra com sucesso a integridade estrutural e a fidelidade das imagens geradas, alcançando uma capacidade impressionante de geração de alta resolução e alta qualidade em tamanhos arbitrários. Com sua simplicidade e compatibilidade, nosso método pode fornecer insights valiosos para futuras explorações na síntese de imagens de ultra-alta resolução. O código será disponibilizado em https://github.com/LeonHLJ/FouriScale.
English
In this study, we delve into the generation of high-resolution images from pre-trained diffusion models, addressing persistent challenges, such as repetitive patterns and structural distortions, that emerge when models are applied beyond their trained resolutions. To address this issue, we introduce an innovative, training-free approach FouriScale from the perspective of frequency domain analysis. We replace the original convolutional layers in pre-trained diffusion models by incorporating a dilation technique along with a low-pass operation, intending to achieve structural consistency and scale consistency across resolutions, respectively. Further enhanced by a padding-then-crop strategy, our method can flexibly handle text-to-image generation of various aspect ratios. By using the FouriScale as guidance, our method successfully balances the structural integrity and fidelity of generated images, achieving an astonishing capacity of arbitrary-size, high-resolution, and high-quality generation. With its simplicity and compatibility, our method can provide valuable insights for future explorations into the synthesis of ultra-high-resolution images. The code will be released at https://github.com/LeonHLJ/FouriScale.
PDF81February 9, 2026