MegaFusion: Uitbreiding van Diffusiemodellen voor Beeldgeneratie op Hogere Resolutie zonder Verdere Afstemming

Samenvatting

Diffusiemodellen zijn naar voren gekomen als koplopers in tekst-naar-beeldgeneratie vanwege hun indrukwekkende mogelijkheden. Desalniettemin leidt hun vaste beeldresolutie tijdens de training vaak tot uitdagingen bij het genereren van hoge-resolutiebeelden, zoals semantische onnauwkeurigheden en objectreplicatie. Dit artikel introduceert MegaFusion, een nieuwe aanpak die bestaande diffusiegebaseerde tekst-naar-beeldgeneratiemodellen uitbreidt naar efficiënte hogere-resolutiegeneratie zonder aanvullende fine-tuning of extra aanpassing. Specifiek gebruiken we een innovatieve truncate-and-relay-strategie om de denoisingsprocessen over verschillende resoluties te verbinden, waardoor hoge-resolutiebeeldgeneratie op een grof-naar-fijne manier mogelijk wordt. Bovendien passen we de prioriteiten van het model aan voor hogere resolutie door het integreren van gedilateerde convoluties en ruisherplanning. De veelzijdigheid en effectiviteit van MegaFusion maken het universeel toepasbaar op zowel latent-space- als pixel-space-diffusiemodellen, evenals op andere afgeleide modellen. Uitgebreide experimenten bevestigen dat MegaFusion de mogelijkheden van bestaande modellen aanzienlijk versterkt om beelden van megapixels en verschillende beeldverhoudingen te produceren, terwijl slechts ongeveer 40% van de oorspronkelijke rekenkosten nodig is.

English

Diffusion models have emerged as frontrunners in text-to-image generation for their impressive capabilities. Nonetheless, their fixed image resolution during training often leads to challenges in high-resolution image generation, such as semantic inaccuracies and object replication. This paper introduces MegaFusion, a novel approach that extends existing diffusion-based text-to-image generation models towards efficient higher-resolution generation without additional fine-tuning or extra adaptation. Specifically, we employ an innovative truncate and relay strategy to bridge the denoising processes across different resolutions, allowing for high-resolution image generation in a coarse-to-fine manner. Moreover, by integrating dilated convolutions and noise re-scheduling, we further adapt the model's priors for higher resolution. The versatility and efficacy of MegaFusion make it universally applicable to both latent-space and pixel-space diffusion models, along with other derivative models. Extensive experiments confirm that MegaFusion significantly boosts the capability of existing models to produce images of megapixels and various aspect ratios, while only requiring about 40% of the original computational cost.

MegaFusion: Uitbreiding van Diffusiemodellen voor Beeldgeneratie op Hogere Resolutie zonder Verdere Afstemming

MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning

Samenvatting

Summary

Support

Support