Procesos de Difusión Anidados para la Generación de Imágenes en Cualquier Momento
Nested Diffusion Processes for Anytime Image Generation
May 30, 2023
Autores: Noam Elata, Bahjat Kawar, Tomer Michaeli, Michael Elad
cs.AI
Resumen
Los modelos de difusión representan el estado del arte actual en generación de imágenes, sintetizando imágenes de alta calidad al descomponer el proceso de generación en muchos pasos de eliminación de ruido de grano fino. A pesar de su buen rendimiento, los modelos de difusión son computacionalmente costosos, requiriendo muchas evaluaciones de funciones neuronales (NFEs, por sus siglas en inglés). En este trabajo, proponemos un método basado en difusión que puede generar imágenes viables cuando se detiene en tiempos arbitrarios antes de su finalización. Utilizando modelos de difusión preentrenados existentes, demostramos que el esquema de generación puede recomponerse como dos procesos de difusión anidados, permitiendo un refinamiento iterativo rápido de una imagen generada. Usamos este enfoque de Difusión Anidada para observar el proceso de generación y permitir una programación flexible basada en la preferencia instantánea del usuario. En experimentos con ImageNet y generación de imágenes a partir de texto basada en Stable Diffusion, mostramos, tanto cualitativa como cuantitativamente, que la calidad de generación intermedia de nuestro método supera ampliamente la del modelo de difusión original, mientras que el resultado final de generación lenta sigue siendo comparable.
English
Diffusion models are the current state-of-the-art in image generation,
synthesizing high-quality images by breaking down the generation process into
many fine-grained denoising steps. Despite their good performance, diffusion
models are computationally expensive, requiring many neural function
evaluations (NFEs). In this work, we propose an anytime diffusion-based method
that can generate viable images when stopped at arbitrary times before
completion. Using existing pretrained diffusion models, we show that the
generation scheme can be recomposed as two nested diffusion processes, enabling
fast iterative refinement of a generated image. We use this Nested Diffusion
approach to peek into the generation process and enable flexible scheduling
based on the instantaneous preference of the user. In experiments on ImageNet
and Stable Diffusion-based text-to-image generation, we show, both
qualitatively and quantitatively, that our method's intermediate generation
quality greatly exceeds that of the original diffusion model, while the final
slow generation result remains comparable.