DiffiT: Diffusie Vision Transformers voor Beeldgeneratie
DiffiT: Diffusion Vision Transformers for Image Generation
December 4, 2023
Auteurs: Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat
cs.AI
Samenvatting
Diffusiemodellen, met hun krachtige expressiviteit en hoge kwaliteit van gegenereerde samples, hebben vele nieuwe toepassingen en use-cases in verschillende domeinen mogelijk gemaakt. Voor het genereren van samples vertrouwen deze modellen op een denoiserend neuraal netwerk dat afbeeldingen produceert door iteratieve ruisverwijdering. Toch is de rol van de architectuur van het denoiserende netwerk niet goed bestudeerd, waarbij de meeste inspanningen zich baseren op convolutionele resterende U-Nets. In dit artikel onderzoeken we de effectiviteit van vision transformers in diffusiegebaseerd generatief leren. Specifiek stellen we een nieuw model voor, genaamd Diffusion Vision Transformers (DiffiT), dat bestaat uit een hybride hiërarchische architectuur met een U-vormige encoder en decoder. We introduceren een nieuw tijdafhankelijk self-attention-module dat aandachtslagen in staat stelt hun gedrag aan te passen tijdens verschillende fasen van het denoiseringsproces op een efficiënte manier. We introduceren ook latent DiffiT, dat bestaat uit een transformermodel met de voorgestelde self-attention-lagen, voor het genereren van afbeeldingen met hoge resolutie. Onze resultaten tonen aan dat DiffiT verrassend effectief is in het genereren van afbeeldingen met hoge kwaliteit, en het behaalt state-of-the-art (SOTA) benchmarks op een verscheidenheid aan klasse-conditionele en onvoorwaardelijke synthesetaken. In de latente ruimte behaalt DiffiT een nieuwe SOTA FID-score van 1,73 op de ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT
English
Diffusion models with their powerful expressivity and high sample quality
have enabled many new applications and use-cases in various domains. For sample
generation, these models rely on a denoising neural network that generates
images by iterative denoising. Yet, the role of denoising network architecture
is not well-studied with most efforts relying on convolutional residual U-Nets.
In this paper, we study the effectiveness of vision transformers in
diffusion-based generative learning. Specifically, we propose a new model,
denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid
hierarchical architecture with a U-shaped encoder and decoder. We introduce a
novel time-dependent self-attention module that allows attention layers to
adapt their behavior at different stages of the denoising process in an
efficient manner. We also introduce latent DiffiT which consists of transformer
model with the proposed self-attention layers, for high-resolution image
generation. Our results show that DiffiT is surprisingly effective in
generating high-fidelity images, and it achieves state-of-the-art (SOTA)
benchmarks on a variety of class-conditional and unconditional synthesis tasks.
In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on
ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT