ChatPaper.aiChatPaper

MegaFusion: 추가 조정 없이 고해상도 이미지 생성을 위한 확산 모델 확장

MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning

August 20, 2024
저자: Haoning Wu, Shaocheng Shen, Qiang Hu, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang
cs.AI

초록

확산 모델은 탁월한 성능으로 텍스트에서 이미지를 생성하는 데 선두주자로 등장했습니다. 그러나 훈련 중 고정된 이미지 해상도로 인해 고해상도 이미지 생성에 대한 도전이 종종 발생하며, 이는 의미적 부정확성과 객체 복제와 같은 문제를 야기합니다. 본 논문에서는 MegaFusion이라는 혁신적인 방법을 소개하여 기존의 확산 기반 텍스트에서 이미지로의 생성 모델을 효율적인 고해상도 생성으로 확장하며, 추가적인 세부 조정이나 추가적인 적응 없이 이를 실현합니다. 구체적으로, 우리는 새로운 절단 및 중계 전략을 채택하여 다른 해상도 간에 노이즈 제거 과정을 연결함으로써, 거친 단계에서부터 세밀한 단계로 고해상도 이미지 생성을 가능하게 합니다. 더불어, 확장된 합성곱과 노이즈 재스케줄링을 통합함으로써 모델의 사전 확률을 더 높은 해상도에 맞게 조정합니다. MegaFusion의 다재다능성과 효과는 잠재 공간 및 픽셀 공간 확산 모델뿐만 아니라 다른 파생 모델에도 보편적으로 적용될 수 있습니다. 광범위한 실험 결과 MegaFusion이 기존 모델의 능력을 크게 향상시켜 메가픽셀 및 다양한 종횡비의 이미지를 생성할 수 있으며, 원래의 계산 비용의 약 40%만 필요하다는 것을 확인합니다.
English
Diffusion models have emerged as frontrunners in text-to-image generation for their impressive capabilities. Nonetheless, their fixed image resolution during training often leads to challenges in high-resolution image generation, such as semantic inaccuracies and object replication. This paper introduces MegaFusion, a novel approach that extends existing diffusion-based text-to-image generation models towards efficient higher-resolution generation without additional fine-tuning or extra adaptation. Specifically, we employ an innovative truncate and relay strategy to bridge the denoising processes across different resolutions, allowing for high-resolution image generation in a coarse-to-fine manner. Moreover, by integrating dilated convolutions and noise re-scheduling, we further adapt the model's priors for higher resolution. The versatility and efficacy of MegaFusion make it universally applicable to both latent-space and pixel-space diffusion models, along with other derivative models. Extensive experiments confirm that MegaFusion significantly boosts the capability of existing models to produce images of megapixels and various aspect ratios, while only requiring about 40% of the original computational cost.

Summary

AI-Generated Summary

PDF122November 17, 2024