Realizzare un Ridimensionamento Economico: Un Modello di Diffusione a Cascata Automatica per l'Adattamento a Risoluzioni Superiori

Abstract

I modelli di diffusione si sono dimostrati altamente efficaci nella generazione di immagini e video; tuttavia, continuano a presentare sfide compositive quando generano immagini di dimensioni variabili a causa di dati di addestramento a scala singola. L'adattamento di grandi modelli di diffusione pre-addestrati per risoluzioni più elevate richiede risorse computazionali e di ottimizzazione sostanziali, ma ottenere una capacità di generazione paragonabile ai modelli a bassa risoluzione rimane difficile. Questo articolo propone un nuovo modello di diffusione a cascata autonoma che sfrutta la ricca conoscenza acquisita da un modello ben addestrato a bassa risoluzione per un rapido adattamento alla generazione di immagini e video a risoluzione più elevata, impiegando paradigmi di upsampling senza sintonizzazione o a basso costo. Integrando una sequenza di moduli di upsampling multi-scala, il modello di diffusione a cascata autonoma può adattarsi efficientemente a una risoluzione più alta, preservando le capacità compositive e di generazione originali. Proponiamo inoltre una strategia di riprogrammazione del rumore guidata da pivot per accelerare il processo di inferenza e migliorare i dettagli strutturali locali. Rispetto alla messa a punto completa, il nostro approccio ottiene un'accelerazione dell'addestramento di 5X e richiede solo 0,002M parametri aggiuntivi da sintonizzare. Esperimenti estensivi dimostrano che il nostro approccio può adattarsi rapidamente alla sintesi di immagini e video a risoluzione più elevata con una messa a punto di soli 10k passi, con praticamente nessun tempo di inferenza aggiuntivo.

English

Diffusion models have proven to be highly effective in image and video generation; however, they still face composition challenges when generating images of varying sizes due to single-scale training data. Adapting large pre-trained diffusion models for higher resolution demands substantial computational and optimization resources, yet achieving a generation capability comparable to low-resolution models remains elusive. This paper proposes a novel self-cascade diffusion model that leverages the rich knowledge gained from a well-trained low-resolution model for rapid adaptation to higher-resolution image and video generation, employing either tuning-free or cheap upsampler tuning paradigms. Integrating a sequence of multi-scale upsampler modules, the self-cascade diffusion model can efficiently adapt to a higher resolution, preserving the original composition and generation capabilities. We further propose a pivot-guided noise re-schedule strategy to speed up the inference process and improve local structural details. Compared to full fine-tuning, our approach achieves a 5X training speed-up and requires only an additional 0.002M tuning parameters. Extensive experiments demonstrate that our approach can quickly adapt to higher resolution image and video synthesis by fine-tuning for just 10k steps, with virtually no additional inference time.

Realizzare un Ridimensionamento Economico: Un Modello di Diffusione a Cascata Automatica per l'Adattamento a Risoluzioni Superiori

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

Abstract

Support