ChatPaper.aiChatPaper

DiffiT: Transformadores de Visão com Difusão para Geração de Imagens

DiffiT: Diffusion Vision Transformers for Image Generation

December 4, 2023
Autores: Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat
cs.AI

Resumo

Modelos de difusão, com sua poderosa expressividade e alta qualidade de amostras, têm possibilitado muitas novas aplicações e casos de uso em diversos domínios. Para a geração de amostras, esses modelos dependem de uma rede neural de remoção de ruído que gera imagens por meio de desruído iterativo. No entanto, o papel da arquitetura da rede de desruído não é bem estudado, com a maioria dos esforços dependendo de U-Nets residuais convolucionais. Neste artigo, estudamos a eficácia dos transformadores de visão (vision transformers) no aprendizado generativo baseado em difusão. Especificamente, propomos um novo modelo, denominado Diffusion Vision Transformers (DiffiT), que consiste em uma arquitetura hierárquica híbrida com um codificador e decodificador em forma de U. Introduzimos um novo módulo de autoatenção dependente do tempo que permite que as camadas de atenção adaptem seu comportamento em diferentes estágios do processo de desruído de maneira eficiente. Também apresentamos o DiffiT latente, que consiste em um modelo de transformador com as camadas de autoatenção propostas, para geração de imagens de alta resolução. Nossos resultados mostram que o DiffiT é surpreendentemente eficaz na geração de imagens de alta fidelidade, alcançando benchmarks de última geração (state-of-the-art, SOTA) em uma variedade de tarefas de síntese condicional e incondicional por classe. No espaço latente, o DiffiT alcança um novo recorde de pontuação FID de 1,73 no conjunto de dados ImageNet-256. Repositório: https://github.com/NVlabs/DiffiT
English
Diffusion models with their powerful expressivity and high sample quality have enabled many new applications and use-cases in various domains. For sample generation, these models rely on a denoising neural network that generates images by iterative denoising. Yet, the role of denoising network architecture is not well-studied with most efforts relying on convolutional residual U-Nets. In this paper, we study the effectiveness of vision transformers in diffusion-based generative learning. Specifically, we propose a new model, denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid hierarchical architecture with a U-shaped encoder and decoder. We introduce a novel time-dependent self-attention module that allows attention layers to adapt their behavior at different stages of the denoising process in an efficient manner. We also introduce latent DiffiT which consists of transformer model with the proposed self-attention layers, for high-resolution image generation. Our results show that DiffiT is surprisingly effective in generating high-fidelity images, and it achieves state-of-the-art (SOTA) benchmarks on a variety of class-conditional and unconditional synthesis tasks. In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT
PDF152February 7, 2026