低コストなスケーリングを実現:高解像度適応のための自己カスケード拡散モデル
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation
February 16, 2024
著者: Lanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen
cs.AI
要旨
拡散モデルは画像や動画生成において非常に効果的であることが証明されているが、単一スケールの学習データを使用するため、さまざまなサイズの画像を生成する際に構成上の課題に直面している。高解像度に対応するために大規模な事前学習済み拡散モデルを適応させるには、多大な計算リソースと最適化が必要であり、低解像度モデルと同等の生成能力を達成することは依然として困難である。本論文では、低解像度モデルから得られた豊富な知識を活用し、高解像度の画像や動画生成に迅速に適応する新しい自己カスケード拡散モデルを提案する。このモデルは、チューニング不要または低コストのアップサンプラーチューニングパラダイムを採用し、マルチスケールアップサンプラーモジュールのシーケンスを統合することで、元の構成と生成能力を維持しながら効率的に高解像度に適応できる。さらに、推論プロセスを高速化し、局所的な構造的詳細を改善するために、ピボットガイドノイズ再スケジュール戦略を提案する。完全なファインチューニングと比較して、本アプローチは5倍の学習速度向上を達成し、追加で0.002Mのチューニングパラメータのみを必要とする。大規模な実験により、本アプローチがわずか10kステップのファインチューニングで高解像度の画像や動画合成に迅速に適応し、実質的に追加の推論時間を必要としないことが実証された。
English
Diffusion models have proven to be highly effective in image and video
generation; however, they still face composition challenges when generating
images of varying sizes due to single-scale training data. Adapting large
pre-trained diffusion models for higher resolution demands substantial
computational and optimization resources, yet achieving a generation capability
comparable to low-resolution models remains elusive. This paper proposes a
novel self-cascade diffusion model that leverages the rich knowledge gained
from a well-trained low-resolution model for rapid adaptation to
higher-resolution image and video generation, employing either tuning-free or
cheap upsampler tuning paradigms. Integrating a sequence of multi-scale
upsampler modules, the self-cascade diffusion model can efficiently adapt to a
higher resolution, preserving the original composition and generation
capabilities. We further propose a pivot-guided noise re-schedule strategy to
speed up the inference process and improve local structural details. Compared
to full fine-tuning, our approach achieves a 5X training speed-up and requires
only an additional 0.002M tuning parameters. Extensive experiments demonstrate
that our approach can quickly adapt to higher resolution image and video
synthesis by fine-tuning for just 10k steps, with virtually no additional
inference time.Summary
AI-Generated Summary