ChatPaper.aiChatPaper

FreeScale : Libérer la résolution des modèles de diffusion via Fusion d'Échelle sans Réglage

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

December 12, 2024
Auteurs: Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu
cs.AI

Résumé

Les modèles de diffusion visuelle réalisent des progrès remarquables, mais ils sont généralement entraînés à des résolutions limitées en raison du manque de données haute résolution et de ressources de calcul limitées, ce qui entrave leur capacité à générer des images ou des vidéos de haute qualité à des résolutions plus élevées. Des efforts récents ont exploré des stratégies sans réglage pour exploiter le potentiel inexploité de la génération visuelle à haute résolution des modèles pré-entraînés. Cependant, ces méthodes sont encore susceptibles de produire un contenu visuel de mauvaise qualité avec des motifs répétitifs. L'obstacle clé réside dans l'augmentation inévitable des informations haute fréquence lorsque le modèle génère un contenu visuel dépassant sa résolution d'entraînement, entraînant des motifs répétitifs indésirables résultant des erreurs accumulées. Pour relever ce défi, nous proposons FreeScale, un paradigme d'inférence sans réglage pour permettre la génération visuelle à haute résolution via la fusion d'échelle. Plus précisément, FreeScale traite les informations de différentes échelles réceptives, puis les fusionne en extrayant les composantes de fréquence souhaitées. Des expériences approfondies valident la supériorité de notre paradigme dans l'extension des capacités de génération visuelle à haute résolution pour les modèles d'images et de vidéos. Notamment, par rapport à la méthode précédente la plus performante, FreeScale débloque pour la première fois la génération d'images en résolution 8k.
English
Visual diffusion models achieve remarkable progress, yet they are typically trained at limited resolutions due to the lack of high-resolution data and constrained computation resources, hampering their ability to generate high-fidelity images or videos at higher resolutions. Recent efforts have explored tuning-free strategies to exhibit the untapped potential higher-resolution visual generation of pre-trained models. However, these methods are still prone to producing low-quality visual content with repetitive patterns. The key obstacle lies in the inevitable increase in high-frequency information when the model generates visual content exceeding its training resolution, leading to undesirable repetitive patterns deriving from the accumulated errors. To tackle this challenge, we propose FreeScale, a tuning-free inference paradigm to enable higher-resolution visual generation via scale fusion. Specifically, FreeScale processes information from different receptive scales and then fuses it by extracting desired frequency components. Extensive experiments validate the superiority of our paradigm in extending the capabilities of higher-resolution visual generation for both image and video models. Notably, compared with the previous best-performing method, FreeScale unlocks the generation of 8k-resolution images for the first time.

Summary

AI-Generated Summary

PDF202December 16, 2024