Processi di Diffusione Annidati per la Generazione di Immagini in Tempo Reale

Abstract

I modelli di diffusione rappresentano lo stato dell'arte nella generazione di immagini, sintetizzando immagini di alta qualità suddividendo il processo di generazione in numerosi passaggi di rimozione del rumore a grana fine. Nonostante le loro prestazioni eccellenti, i modelli di diffusione sono computazionalmente costosi, richiedendo molte valutazioni di funzioni neurali (NFE). In questo lavoro, proponiamo un metodo basato sulla diffusione che può generare immagini valide quando interrotto in momenti arbitrari prima del completamento. Utilizzando modelli di diffusione pre-addestrati esistenti, dimostriamo che lo schema di generazione può essere ricomposto come due processi di diffusione annidati, consentendo un rapido perfezionamento iterativo di un'immagine generata. Utilizziamo questo approccio di Diffusione Annidata per osservare il processo di generazione e abilitare una pianificazione flessibile basata sulla preferenza istantanea dell'utente. Negli esperimenti su ImageNet e sulla generazione di immagini da testo basata su Stable Diffusion, mostriamo, sia qualitativamente che quantitativamente, che la qualità intermedia della generazione del nostro metodo supera notevolmente quella del modello di diffusione originale, mentre il risultato finale della generazione lenta rimane comparabile.

English

Diffusion models are the current state-of-the-art in image generation, synthesizing high-quality images by breaking down the generation process into many fine-grained denoising steps. Despite their good performance, diffusion models are computationally expensive, requiring many neural function evaluations (NFEs). In this work, we propose an anytime diffusion-based method that can generate viable images when stopped at arbitrary times before completion. Using existing pretrained diffusion models, we show that the generation scheme can be recomposed as two nested diffusion processes, enabling fast iterative refinement of a generated image. We use this Nested Diffusion approach to peek into the generation process and enable flexible scheduling based on the instantaneous preference of the user. In experiments on ImageNet and Stable Diffusion-based text-to-image generation, we show, both qualitatively and quantitatively, that our method's intermediate generation quality greatly exceeds that of the original diffusion model, while the final slow generation result remains comparable.

Processi di Diffusione Annidati per la Generazione di Immagini in Tempo Reale

Nested Diffusion Processes for Anytime Image Generation

Abstract

Support