DiffiT: Transformadores de Visión con Difusión para Generación de Imágenes
DiffiT: Diffusion Vision Transformers for Image Generation
December 4, 2023
Autores: Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat
cs.AI
Resumen
Los modelos de difusión, con su potente expresividad y alta calidad de muestras, han permitido muchas nuevas aplicaciones y casos de uso en diversos dominios. Para la generación de muestras, estos modelos dependen de una red neuronal de eliminación de ruido que genera imágenes mediante un proceso iterativo de desruido. Sin embargo, el papel de la arquitectura de la red de desruido no ha sido bien estudiado, ya que la mayoría de los esfuerzos se basan en U-Nets residuales convolucionales. En este artículo, estudiamos la efectividad de los transformadores de visión en el aprendizaje generativo basado en difusión. Específicamente, proponemos un nuevo modelo, denominado Transformadores de Visión de Difusión (DiffiT), que consiste en una arquitectura híbrida jerárquica con un codificador y decodificador en forma de U. Introducimos un nuevo módulo de autoatención dependiente del tiempo que permite a las capas de atención adaptar su comportamiento en diferentes etapas del proceso de desruido de manera eficiente. También presentamos DiffiT latente, que consiste en un modelo de transformador con las capas de autoatención propuestas, para la generación de imágenes de alta resolución. Nuestros resultados muestran que DiffiT es sorprendentemente efectivo en la generación de imágenes de alta fidelidad y alcanza puntos de referencia de última generación (SOTA) en una variedad de tareas de síntesis condicional y no condicional por clases. En el espacio latente, DiffiT logra un nuevo puntaje FID SOTA de 1.73 en el conjunto de datos ImageNet-256. Repositorio: https://github.com/NVlabs/DiffiT
English
Diffusion models with their powerful expressivity and high sample quality
have enabled many new applications and use-cases in various domains. For sample
generation, these models rely on a denoising neural network that generates
images by iterative denoising. Yet, the role of denoising network architecture
is not well-studied with most efforts relying on convolutional residual U-Nets.
In this paper, we study the effectiveness of vision transformers in
diffusion-based generative learning. Specifically, we propose a new model,
denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid
hierarchical architecture with a U-shaped encoder and decoder. We introduce a
novel time-dependent self-attention module that allows attention layers to
adapt their behavior at different stages of the denoising process in an
efficient manner. We also introduce latent DiffiT which consists of transformer
model with the proposed self-attention layers, for high-resolution image
generation. Our results show that DiffiT is surprisingly effective in
generating high-fidelity images, and it achieves state-of-the-art (SOTA)
benchmarks on a variety of class-conditional and unconditional synthesis tasks.
In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on
ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT