Processus de diffusion imbriqués pour la génération d'images en temps réel
Nested Diffusion Processes for Anytime Image Generation
May 30, 2023
Auteurs: Noam Elata, Bahjat Kawar, Tomer Michaeli, Michael Elad
cs.AI
Résumé
Les modèles de diffusion représentent l'état de l'art actuel en génération d'images, synthétisant des images de haute qualité en décomposant le processus de génération en de nombreuses étapes de débruitage fines. Malgré leurs bonnes performances, les modèles de diffusion sont coûteux en calcul, nécessitant de nombreuses évaluations de fonctions neuronales (NFEs). Dans ce travail, nous proposons une méthode basée sur la diffusion capable de générer des images viables lorsqu'elle est arrêtée à des moments arbitraires avant son achèvement. En utilisant des modèles de diffusion pré-entraînés existants, nous montrons que le schéma de génération peut être recomposé en deux processus de diffusion imbriqués, permettant un raffinement itératif rapide d'une image générée. Nous utilisons cette approche de Diffusion Imbriquée pour observer le processus de génération et permettre une planification flexible basée sur la préférence instantanée de l'utilisateur. Dans des expériences sur ImageNet et la génération d'images à partir de texte avec Stable Diffusion, nous montrons, qualitativement et quantitativement, que la qualité de génération intermédiaire de notre méthode dépasse largement celle du modèle de diffusion original, tout en maintenant des résultats finaux de génération lente comparables.
English
Diffusion models are the current state-of-the-art in image generation,
synthesizing high-quality images by breaking down the generation process into
many fine-grained denoising steps. Despite their good performance, diffusion
models are computationally expensive, requiring many neural function
evaluations (NFEs). In this work, we propose an anytime diffusion-based method
that can generate viable images when stopped at arbitrary times before
completion. Using existing pretrained diffusion models, we show that the
generation scheme can be recomposed as two nested diffusion processes, enabling
fast iterative refinement of a generated image. We use this Nested Diffusion
approach to peek into the generation process and enable flexible scheduling
based on the instantaneous preference of the user. In experiments on ImageNet
and Stable Diffusion-based text-to-image generation, we show, both
qualitatively and quantitatively, that our method's intermediate generation
quality greatly exceeds that of the original diffusion model, while the final
slow generation result remains comparable.