Maak een goedkope schaling: Een zelf-cascade diffusiemodel voor hogere-resolutie aanpassing

Samenvatting

Diffusiemodellen hebben zich bewezen als zeer effectief voor het genereren van afbeeldingen en video's; ze kampen echter nog steeds met uitdagingen op het gebied van compositie bij het genereren van afbeeldingen van verschillende formaten vanwege enkelvoudige schaaltrainingsdata. Het aanpassen van grote, vooraf getrainde diffusiemodellen voor hogere resoluties vereist aanzienlijke reken- en optimalisatiebronnen, maar het bereiken van een generatievermogen dat vergelijkbaar is met modellen voor lage resolutie blijft moeilijk. Dit artikel introduceert een nieuw zelf-cascade diffusiemodel dat gebruikmaakt van de rijke kennis die is opgedaan met een goed getraind laag-resolutiemodel voor snelle aanpassing aan hogere-resolutie afbeeldingen en video's, waarbij gebruik wordt gemaakt van tuning-vrije of goedkope upsampler-tuning paradigma's. Door een reeks multi-schaal upsampler-modules te integreren, kan het zelf-cascade diffusiemodel efficiënt worden aangepast aan een hogere resolutie, waarbij de oorspronkelijke compositie en generatiecapaciteiten behouden blijven. We stellen verder een pivot-gestuurde ruisherschikkingsstrategie voor om het inferentieproces te versnellen en lokale structurele details te verbeteren. Vergeleken met volledige fine-tuning bereikt onze aanpak een 5X snellere trainingssnelheid en vereist slechts 0,002M extra afstemparameters. Uitgebreide experimenten tonen aan dat onze aanpak zich snel kan aanpassen aan hogere-resolutie afbeeldingen en video's door slechts 10.000 stappen te fine-tunen, met vrijwel geen extra inferentietijd.

English

Diffusion models have proven to be highly effective in image and video generation; however, they still face composition challenges when generating images of varying sizes due to single-scale training data. Adapting large pre-trained diffusion models for higher resolution demands substantial computational and optimization resources, yet achieving a generation capability comparable to low-resolution models remains elusive. This paper proposes a novel self-cascade diffusion model that leverages the rich knowledge gained from a well-trained low-resolution model for rapid adaptation to higher-resolution image and video generation, employing either tuning-free or cheap upsampler tuning paradigms. Integrating a sequence of multi-scale upsampler modules, the self-cascade diffusion model can efficiently adapt to a higher resolution, preserving the original composition and generation capabilities. We further propose a pivot-guided noise re-schedule strategy to speed up the inference process and improve local structural details. Compared to full fine-tuning, our approach achieves a 5X training speed-up and requires only an additional 0.002M tuning parameters. Extensive experiments demonstrate that our approach can quickly adapt to higher resolution image and video synthesis by fine-tuning for just 10k steps, with virtually no additional inference time.

Maak een goedkope schaling: Een zelf-cascade diffusiemodel voor hogere-resolutie aanpassing

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

Samenvatting

Support