ChatPaper.aiChatPaper

MegaFusion: 追加チューニングなしで高解像度画像生成に向けて拡散モデルを拡張

MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning

August 20, 2024
著者: Haoning Wu, Shaocheng Shen, Qiang Hu, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang
cs.AI

要旨

拡散モデルは、その印象的な能力からテキストから画像生成の分野で最先端を走っています。しかしながら、訓練時の固定された画像解像度は、高解像度画像生成において意味的な不正確さやオブジェクトの複製といった課題を引き起こすことがしばしばあります。本論文では、MegaFusionという新しいアプローチを紹介します。これは、既存の拡散ベースのテキストから画像生成モデルを、追加の微調整や適応なしに効率的な高解像度生成へと拡張するものです。具体的には、異なる解像度間のノイズ除去プロセスを橋渡しするために、斬新な切り捨てとリレー戦略を採用し、粗から細へと高解像度画像を生成することを可能にします。さらに、拡張畳み込みとノイズの再スケジューリングを統合することで、モデルの事前分布を高解像度に適応させます。MegaFusionの汎用性と有効性は、潜在空間とピクセル空間の拡散モデル、およびその他の派生モデルに普遍的に適用可能です。大規模な実験により、MegaFusionが既存モデルのメガピクセルや様々なアスペクト比の画像生成能力を大幅に向上させ、元の計算コストの約40%しか必要としないことが確認されています。
English
Diffusion models have emerged as frontrunners in text-to-image generation for their impressive capabilities. Nonetheless, their fixed image resolution during training often leads to challenges in high-resolution image generation, such as semantic inaccuracies and object replication. This paper introduces MegaFusion, a novel approach that extends existing diffusion-based text-to-image generation models towards efficient higher-resolution generation without additional fine-tuning or extra adaptation. Specifically, we employ an innovative truncate and relay strategy to bridge the denoising processes across different resolutions, allowing for high-resolution image generation in a coarse-to-fine manner. Moreover, by integrating dilated convolutions and noise re-scheduling, we further adapt the model's priors for higher resolution. The versatility and efficacy of MegaFusion make it universally applicable to both latent-space and pixel-space diffusion models, along with other derivative models. Extensive experiments confirm that MegaFusion significantly boosts the capability of existing models to produce images of megapixels and various aspect ratios, while only requiring about 40% of the original computational cost.

Summary

AI-Generated Summary

PDF122November 17, 2024