ChatPaper.aiChatPaper

FouriScale: 훈련 없이 고해상도 이미지 합성을 위한 주파수 관점

FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

March 19, 2024
저자: Linjiang Huang, Rongyao Fang, Aiping Zhang, Guanglu Song, Si Liu, Yu Liu, Hongsheng Li
cs.AI

초록

본 연구에서는 사전 학습된 확산 모델을 통해 고해상도 이미지를 생성하는 과정에서, 모델이 학습된 해상도를 넘어서 적용될 때 발생하는 반복적인 패턴 및 구조적 왜곡과 같은 지속적인 문제들을 다룹니다. 이 문제를 해결하기 위해, 우리는 주파수 영역 분석의 관점에서 혁신적인 학습 없는 접근 방식인 FouriScale을 제안합니다. 우리는 사전 학습된 확산 모델의 기존 합성곱 레이어를 확장 기법과 저역 통과 연산을 결합하여 대체함으로써, 각각 구조적 일관성과 해상도 간의 스케일 일관성을 달성하고자 합니다. 또한 패딩 후 크롭 전략을 통해 더욱 향상된 우리의 방법은 다양한 종횡비의 텍스트-이미지 생성을 유연하게 처리할 수 있습니다. FouriScale을 가이드로 사용함으로써, 우리의 방법은 생성된 이미지의 구조적 무결성과 충실도를 성공적으로 균형 잡아, 임의의 크기, 고해상도, 고품질 생성을 놀라운 수준으로 달성합니다. 단순성과 호환성을 갖춘 우리의 방법은 초고해상도 이미지 합성에 대한 미래의 탐구에 유용한 통찰을 제공할 수 있습니다. 코드는 https://github.com/LeonHLJ/FouriScale에서 공개될 예정입니다.
English
In this study, we delve into the generation of high-resolution images from pre-trained diffusion models, addressing persistent challenges, such as repetitive patterns and structural distortions, that emerge when models are applied beyond their trained resolutions. To address this issue, we introduce an innovative, training-free approach FouriScale from the perspective of frequency domain analysis. We replace the original convolutional layers in pre-trained diffusion models by incorporating a dilation technique along with a low-pass operation, intending to achieve structural consistency and scale consistency across resolutions, respectively. Further enhanced by a padding-then-crop strategy, our method can flexibly handle text-to-image generation of various aspect ratios. By using the FouriScale as guidance, our method successfully balances the structural integrity and fidelity of generated images, achieving an astonishing capacity of arbitrary-size, high-resolution, and high-quality generation. With its simplicity and compatibility, our method can provide valuable insights for future explorations into the synthesis of ultra-high-resolution images. The code will be released at https://github.com/LeonHLJ/FouriScale.

Summary

AI-Generated Summary

PDF81December 15, 2024