Realizzare un Ridimensionamento Economico: Un Modello di Diffusione a Cascata Automatica per l'Adattamento a Risoluzioni Superiori
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation
February 16, 2024
Autori: Lanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen
cs.AI
Abstract
I modelli di diffusione si sono dimostrati altamente efficaci nella generazione di immagini e video; tuttavia, continuano a presentare sfide compositive quando generano immagini di dimensioni variabili a causa di dati di addestramento a scala singola. L'adattamento di grandi modelli di diffusione pre-addestrati per risoluzioni più elevate richiede risorse computazionali e di ottimizzazione sostanziali, ma ottenere una capacità di generazione paragonabile ai modelli a bassa risoluzione rimane difficile. Questo articolo propone un nuovo modello di diffusione a cascata autonoma che sfrutta la ricca conoscenza acquisita da un modello ben addestrato a bassa risoluzione per un rapido adattamento alla generazione di immagini e video a risoluzione più elevata, impiegando paradigmi di upsampling senza sintonizzazione o a basso costo. Integrando una sequenza di moduli di upsampling multi-scala, il modello di diffusione a cascata autonoma può adattarsi efficientemente a una risoluzione più alta, preservando le capacità compositive e di generazione originali. Proponiamo inoltre una strategia di riprogrammazione del rumore guidata da pivot per accelerare il processo di inferenza e migliorare i dettagli strutturali locali. Rispetto alla messa a punto completa, il nostro approccio ottiene un'accelerazione dell'addestramento di 5X e richiede solo 0,002M parametri aggiuntivi da sintonizzare. Esperimenti estensivi dimostrano che il nostro approccio può adattarsi rapidamente alla sintesi di immagini e video a risoluzione più elevata con una messa a punto di soli 10k passi, con praticamente nessun tempo di inferenza aggiuntivo.
English
Diffusion models have proven to be highly effective in image and video
generation; however, they still face composition challenges when generating
images of varying sizes due to single-scale training data. Adapting large
pre-trained diffusion models for higher resolution demands substantial
computational and optimization resources, yet achieving a generation capability
comparable to low-resolution models remains elusive. This paper proposes a
novel self-cascade diffusion model that leverages the rich knowledge gained
from a well-trained low-resolution model for rapid adaptation to
higher-resolution image and video generation, employing either tuning-free or
cheap upsampler tuning paradigms. Integrating a sequence of multi-scale
upsampler modules, the self-cascade diffusion model can efficiently adapt to a
higher resolution, preserving the original composition and generation
capabilities. We further propose a pivot-guided noise re-schedule strategy to
speed up the inference process and improve local structural details. Compared
to full fine-tuning, our approach achieves a 5X training speed-up and requires
only an additional 0.002M tuning parameters. Extensive experiments demonstrate
that our approach can quickly adapt to higher resolution image and video
synthesis by fine-tuning for just 10k steps, with virtually no additional
inference time.