FreeScale: Freisetzung der Auflösung von Diffusionsmodellen durch abstimmmittelfreie Skalenfusion.
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion
December 12, 2024
Autoren: Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu
cs.AI
Zusammenfassung
Visuelle Diffusionsmodelle erzielen bemerkenswerte Fortschritte, werden jedoch in der Regel auf begrenzten Auflösungen trainiert, aufgrund des Mangels an hochauflösenden Daten und begrenzten Rechenressourcen, was ihre Fähigkeit zur Erzeugung hochwertiger Bilder oder Videos in höheren Auflösungen beeinträchtigt. Kürzliche Bemühungen haben tuningfreie Strategien erforscht, um das ungenutzte Potenzial der hochauflösenden visuellen Generierung von vorab trainierten Modellen zu zeigen. Diese Methoden neigen jedoch immer noch dazu, visuelle Inhalte von geringer Qualität mit sich wiederholenden Mustern zu erzeugen. Das Hauptproblem liegt in der unvermeidlichen Zunahme von hochfrequenten Informationen, wenn das Modell visuelle Inhalte erzeugt, die die Trainingsauflösung überschreiten, was zu unerwünschten sich wiederholenden Mustern führt, die aus den angesammelten Fehlern resultieren. Um diese Herausforderung anzugehen, schlagen wir FreeScale vor, ein tuningfreies Inferenzparadigma, um die hochauflösende visuelle Generierung durch Skalenfusion zu ermöglichen. Speziell verarbeitet FreeScale Informationen von verschiedenen rezeptiven Skalen und fusioniert sie dann, indem gewünschte Frequenzkomponenten extrahiert werden. Umfangreiche Experimente bestätigen die Überlegenheit unseres Paradigmas bei der Erweiterung der Fähigkeiten der hochauflösenden visuellen Generierung sowohl für Bild- als auch für Video-Modelle. Bemerkenswert ist, dass FreeScale im Vergleich zur bisher besten Methode erstmals die Generierung von 8k-Auflösungsbildern ermöglicht.
English
Visual diffusion models achieve remarkable progress, yet they are typically
trained at limited resolutions due to the lack of high-resolution data and
constrained computation resources, hampering their ability to generate
high-fidelity images or videos at higher resolutions. Recent efforts have
explored tuning-free strategies to exhibit the untapped potential
higher-resolution visual generation of pre-trained models. However, these
methods are still prone to producing low-quality visual content with repetitive
patterns. The key obstacle lies in the inevitable increase in high-frequency
information when the model generates visual content exceeding its training
resolution, leading to undesirable repetitive patterns deriving from the
accumulated errors. To tackle this challenge, we propose FreeScale, a
tuning-free inference paradigm to enable higher-resolution visual generation
via scale fusion. Specifically, FreeScale processes information from different
receptive scales and then fuses it by extracting desired frequency components.
Extensive experiments validate the superiority of our paradigm in extending the
capabilities of higher-resolution visual generation for both image and video
models. Notably, compared with the previous best-performing method, FreeScale
unlocks the generation of 8k-resolution images for the first time.Summary
AI-Generated Summary