FreeScale: チューニング不要のスケール融合による拡散モデルの解像度解放
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion
December 12, 2024
著者: Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu
cs.AI
要旨
ビジュアル拡散モデルは著しい進歩を遂げていますが、通常、高解像度データの不足や制約のある計算リソースにより、限られた解像度でトレーニングされるため、高解像度の画像やビデオを生成する能力が阻害されています。最近の取り組みでは、事前にトレーニングされたモデルの未開発の高解像度ビジュアル生成の可能性を示すための調整不要の戦略が模索されています。ただし、これらの方法は依然として低品質の視覚コンテンツを生成しやすく、繰り返しパターンが見られます。主な障害は、モデルがトレーニング解像度を超える視覚コンテンツを生成すると、高周波情報が増加し、蓄積されたエラーから生じる望ましくない繰り返しパターンが生じることにあります。この課題に取り組むために、私たちはFreeScaleを提案します。これは、スケール融合を通じて高解像度のビジュアル生成を可能にする調整不要の推論パラダイムです。具体的には、FreeScaleは異なる受容スケールから情報を処理し、望ましい周波数成分を抽出して融合します。広範な実験により、私たちのパラダイムが画像およびビデオモデルの両方における高解像度ビジュアル生成の能力を拡張する点で優れていることが検証されます。特に、従来の最高性能の手法と比較して、FreeScaleは初めて8k解像度の画像生成を実現しました。
English
Visual diffusion models achieve remarkable progress, yet they are typically
trained at limited resolutions due to the lack of high-resolution data and
constrained computation resources, hampering their ability to generate
high-fidelity images or videos at higher resolutions. Recent efforts have
explored tuning-free strategies to exhibit the untapped potential
higher-resolution visual generation of pre-trained models. However, these
methods are still prone to producing low-quality visual content with repetitive
patterns. The key obstacle lies in the inevitable increase in high-frequency
information when the model generates visual content exceeding its training
resolution, leading to undesirable repetitive patterns deriving from the
accumulated errors. To tackle this challenge, we propose FreeScale, a
tuning-free inference paradigm to enable higher-resolution visual generation
via scale fusion. Specifically, FreeScale processes information from different
receptive scales and then fuses it by extracting desired frequency components.
Extensive experiments validate the superiority of our paradigm in extending the
capabilities of higher-resolution visual generation for both image and video
models. Notably, compared with the previous best-performing method, FreeScale
unlocks the generation of 8k-resolution images for the first time.Summary
AI-Generated Summary