Maak een goedkope schaling: Een zelf-cascade diffusiemodel voor hogere-resolutie aanpassing
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation
February 16, 2024
Auteurs: Lanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen
cs.AI
Samenvatting
Diffusiemodellen hebben zich bewezen als zeer effectief voor het genereren van afbeeldingen en video's; ze kampen echter nog steeds met uitdagingen op het gebied van compositie bij het genereren van afbeeldingen van verschillende formaten vanwege enkelvoudige schaaltrainingsdata. Het aanpassen van grote, vooraf getrainde diffusiemodellen voor hogere resoluties vereist aanzienlijke reken- en optimalisatiebronnen, maar het bereiken van een generatievermogen dat vergelijkbaar is met modellen voor lage resolutie blijft moeilijk. Dit artikel introduceert een nieuw zelf-cascade diffusiemodel dat gebruikmaakt van de rijke kennis die is opgedaan met een goed getraind laag-resolutiemodel voor snelle aanpassing aan hogere-resolutie afbeeldingen en video's, waarbij gebruik wordt gemaakt van tuning-vrije of goedkope upsampler-tuning paradigma's. Door een reeks multi-schaal upsampler-modules te integreren, kan het zelf-cascade diffusiemodel efficiënt worden aangepast aan een hogere resolutie, waarbij de oorspronkelijke compositie en generatiecapaciteiten behouden blijven. We stellen verder een pivot-gestuurde ruisherschikkingsstrategie voor om het inferentieproces te versnellen en lokale structurele details te verbeteren. Vergeleken met volledige fine-tuning bereikt onze aanpak een 5X snellere trainingssnelheid en vereist slechts 0,002M extra afstemparameters. Uitgebreide experimenten tonen aan dat onze aanpak zich snel kan aanpassen aan hogere-resolutie afbeeldingen en video's door slechts 10.000 stappen te fine-tunen, met vrijwel geen extra inferentietijd.
English
Diffusion models have proven to be highly effective in image and video
generation; however, they still face composition challenges when generating
images of varying sizes due to single-scale training data. Adapting large
pre-trained diffusion models for higher resolution demands substantial
computational and optimization resources, yet achieving a generation capability
comparable to low-resolution models remains elusive. This paper proposes a
novel self-cascade diffusion model that leverages the rich knowledge gained
from a well-trained low-resolution model for rapid adaptation to
higher-resolution image and video generation, employing either tuning-free or
cheap upsampler tuning paradigms. Integrating a sequence of multi-scale
upsampler modules, the self-cascade diffusion model can efficiently adapt to a
higher resolution, preserving the original composition and generation
capabilities. We further propose a pivot-guided noise re-schedule strategy to
speed up the inference process and improve local structural details. Compared
to full fine-tuning, our approach achieves a 5X training speed-up and requires
only an additional 0.002M tuning parameters. Extensive experiments demonstrate
that our approach can quickly adapt to higher resolution image and video
synthesis by fine-tuning for just 10k steps, with virtually no additional
inference time.