Processos de Difusão Aninhados para Geração de Imagens em Tempo Real

Resumo

Modelos de difusão representam o estado da arte atual em geração de imagens, sintetizando imagens de alta qualidade ao decompor o processo de geração em muitas etapas refinadas de remoção de ruído. Apesar de seu bom desempenho, modelos de difusão são computacionalmente caros, exigindo muitas avaliações de funções neurais (NFEs). Neste trabalho, propomos um método baseado em difusão que pode gerar imagens viáveis quando interrompido em tempos arbitrários antes da conclusão. Utilizando modelos de difusão pré-treinados existentes, mostramos que o esquema de geração pode ser recomposto como dois processos de difusão aninhados, permitindo um refinamento iterativo rápido de uma imagem gerada. Usamos essa abordagem de Difusão Aninhada para observar o processo de geração e permitir um agendamento flexível com base na preferência instantânea do usuário. Em experimentos com ImageNet e geração de texto para imagem baseada em Stable Diffusion, mostramos, tanto qualitativa quanto quantitativamente, que a qualidade intermediária de geração do nosso método supera amplamente a do modelo de difusão original, enquanto o resultado final de geração lenta permanece comparável.

English

Diffusion models are the current state-of-the-art in image generation, synthesizing high-quality images by breaking down the generation process into many fine-grained denoising steps. Despite their good performance, diffusion models are computationally expensive, requiring many neural function evaluations (NFEs). In this work, we propose an anytime diffusion-based method that can generate viable images when stopped at arbitrary times before completion. Using existing pretrained diffusion models, we show that the generation scheme can be recomposed as two nested diffusion processes, enabling fast iterative refinement of a generated image. We use this Nested Diffusion approach to peek into the generation process and enable flexible scheduling based on the instantaneous preference of the user. In experiments on ImageNet and Stable Diffusion-based text-to-image generation, we show, both qualitatively and quantitatively, that our method's intermediate generation quality greatly exceeds that of the original diffusion model, while the final slow generation result remains comparable.

Processos de Difusão Aninhados para Geração de Imagens em Tempo Real

Nested Diffusion Processes for Anytime Image Generation

Resumo

Support