Processi di Diffusione Annidati per la Generazione di Immagini in Tempo Reale
Nested Diffusion Processes for Anytime Image Generation
May 30, 2023
Autori: Noam Elata, Bahjat Kawar, Tomer Michaeli, Michael Elad
cs.AI
Abstract
I modelli di diffusione rappresentano lo stato dell'arte nella generazione di immagini, sintetizzando immagini di alta qualità suddividendo il processo di generazione in numerosi passaggi di rimozione del rumore a grana fine. Nonostante le loro prestazioni eccellenti, i modelli di diffusione sono computazionalmente costosi, richiedendo molte valutazioni di funzioni neurali (NFE). In questo lavoro, proponiamo un metodo basato sulla diffusione che può generare immagini valide quando interrotto in momenti arbitrari prima del completamento. Utilizzando modelli di diffusione pre-addestrati esistenti, dimostriamo che lo schema di generazione può essere ricomposto come due processi di diffusione annidati, consentendo un rapido perfezionamento iterativo di un'immagine generata. Utilizziamo questo approccio di Diffusione Annidata per osservare il processo di generazione e abilitare una pianificazione flessibile basata sulla preferenza istantanea dell'utente. Negli esperimenti su ImageNet e sulla generazione di immagini da testo basata su Stable Diffusion, mostriamo, sia qualitativamente che quantitativamente, che la qualità intermedia della generazione del nostro metodo supera notevolmente quella del modello di diffusione originale, mentre il risultato finale della generazione lenta rimane comparabile.
English
Diffusion models are the current state-of-the-art in image generation,
synthesizing high-quality images by breaking down the generation process into
many fine-grained denoising steps. Despite their good performance, diffusion
models are computationally expensive, requiring many neural function
evaluations (NFEs). In this work, we propose an anytime diffusion-based method
that can generate viable images when stopped at arbitrary times before
completion. Using existing pretrained diffusion models, we show that the
generation scheme can be recomposed as two nested diffusion processes, enabling
fast iterative refinement of a generated image. We use this Nested Diffusion
approach to peek into the generation process and enable flexible scheduling
based on the instantaneous preference of the user. In experiments on ImageNet
and Stable Diffusion-based text-to-image generation, we show, both
qualitatively and quantitatively, that our method's intermediate generation
quality greatly exceeds that of the original diffusion model, while the final
slow generation result remains comparable.