ChatPaper.aiChatPaper

MegaFusion: Estendere i Modelli di Diffusione verso la Generazione di Immagini ad Alta Risoluzione senza Ulteriore Ottimizzazione

MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning

August 20, 2024
Autori: Haoning Wu, Shaocheng Shen, Qiang Hu, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang
cs.AI

Abstract

I modelli di diffusione si sono affermati come leader nella generazione di immagini da testo grazie alle loro impressionanti capacità. Tuttavia, la loro risoluzione fissa delle immagini durante l'addestramento spesso comporta sfide nella generazione di immagini ad alta risoluzione, come inesattezze semantiche e replicazione di oggetti. Questo articolo introduce MegaFusion, un approccio innovativo che estende i modelli esistenti di generazione di immagini da testo basati sulla diffusione verso una generazione efficiente a risoluzioni più elevate senza ulteriori fine-tuning o adattamenti aggiuntivi. Nello specifico, utilizziamo una strategia innovativa di troncamento e rilievo per collegare i processi di denoising attraverso diverse risoluzioni, consentendo la generazione di immagini ad alta risoluzione in modo da grossolano a fine. Inoltre, integrando convoluzioni dilatate e una riprogrammazione del rumore, adattiamo ulteriormente i priori del modello per risoluzioni più elevate. La versatilità e l'efficacia di MegaFusion lo rendono universalmente applicabile sia ai modelli di diffusione nello spazio latente che in quello pixel, insieme ad altri modelli derivati. Esperimenti estensivi confermano che MegaFusion migliora significativamente la capacità dei modelli esistenti di produrre immagini di megapixel e vari rapporti d'aspetto, richiedendo solo circa il 40% del costo computazionale originale.
English
Diffusion models have emerged as frontrunners in text-to-image generation for their impressive capabilities. Nonetheless, their fixed image resolution during training often leads to challenges in high-resolution image generation, such as semantic inaccuracies and object replication. This paper introduces MegaFusion, a novel approach that extends existing diffusion-based text-to-image generation models towards efficient higher-resolution generation without additional fine-tuning or extra adaptation. Specifically, we employ an innovative truncate and relay strategy to bridge the denoising processes across different resolutions, allowing for high-resolution image generation in a coarse-to-fine manner. Moreover, by integrating dilated convolutions and noise re-scheduling, we further adapt the model's priors for higher resolution. The versatility and efficacy of MegaFusion make it universally applicable to both latent-space and pixel-space diffusion models, along with other derivative models. Extensive experiments confirm that MegaFusion significantly boosts the capability of existing models to produce images of megapixels and various aspect ratios, while only requiring about 40% of the original computational cost.
PDF132November 17, 2024