ChatPaper.aiChatPaper

FreeScale: Het ontketenen van de resolutie van diffusiemodellen via schaalvereniging zonder afstemming.

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

December 12, 2024
Auteurs: Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu
cs.AI

Samenvatting

Visuele diffusiemodellen boeken opmerkelijke vooruitgang, maar ze worden doorgaans getraind op beperkte resoluties vanwege het gebrek aan data met hoge resolutie en beperkte rekenkracht, wat hun vermogen om hoogwaardige afbeeldingen of video's op hogere resoluties te genereren belemmert. Recente inspanningen hebben tuning-vrije strategieën onderzocht om het onbenutte potentieel van hogeresolutie visuele generatie van vooraf getrainde modellen te tonen. Deze methoden zijn echter nog steeds vatbaar voor het produceren van visuele inhoud van lage kwaliteit met repetitieve patronen. Het belangrijkste obstakel ligt in de onvermijdelijke toename van hoogfrequente informatie wanneer het model visuele inhoud genereert die de trainingsresolutie overschrijdt, wat leidt tot ongewenste repetitieve patronen die voortkomen uit de opgehoopte fouten. Om deze uitdaging aan te gaan, stellen we FreeScale voor, een tuning-vrij inferentieparadigma om hogeresolutie visuele generatie mogelijk te maken via schaalfusie. Specifiek verwerkt FreeScale informatie van verschillende receptieve schalen en fuseert deze vervolgens door de gewenste frequentiecomponenten te extraheren. Uitgebreide experimenten bevestigen de superioriteit van ons paradigma bij het uitbreiden van de mogelijkheden van hogeresolutie visuele generatie voor zowel beeld- als videomodellen. Opmerkelijk is dat FreeScale, in vergelijking met de vorige best presterende methode, voor het eerst de generatie van 8k-resolutie afbeeldingen mogelijk maakt.
English
Visual diffusion models achieve remarkable progress, yet they are typically trained at limited resolutions due to the lack of high-resolution data and constrained computation resources, hampering their ability to generate high-fidelity images or videos at higher resolutions. Recent efforts have explored tuning-free strategies to exhibit the untapped potential higher-resolution visual generation of pre-trained models. However, these methods are still prone to producing low-quality visual content with repetitive patterns. The key obstacle lies in the inevitable increase in high-frequency information when the model generates visual content exceeding its training resolution, leading to undesirable repetitive patterns deriving from the accumulated errors. To tackle this challenge, we propose FreeScale, a tuning-free inference paradigm to enable higher-resolution visual generation via scale fusion. Specifically, FreeScale processes information from different receptive scales and then fuses it by extracting desired frequency components. Extensive experiments validate the superiority of our paradigm in extending the capabilities of higher-resolution visual generation for both image and video models. Notably, compared with the previous best-performing method, FreeScale unlocks the generation of 8k-resolution images for the first time.
PDF212December 16, 2024