DiffiT : Transformers de Vision par Diffusion pour la Génération d'Images
DiffiT: Diffusion Vision Transformers for Image Generation
December 4, 2023
Auteurs: Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat
cs.AI
Résumé
Les modèles de diffusion, avec leur expressivité puissante et leur haute qualité d'échantillonnage, ont permis de nombreuses nouvelles applications et cas d'utilisation dans divers domaines. Pour la génération d'échantillons, ces modèles s'appuient sur un réseau de neurones de débruitage qui génère des images par itération de débruitage. Cependant, le rôle de l'architecture du réseau de débruitage n'est pas bien étudié, la plupart des efforts reposant sur des U-Nets résiduels convolutifs. Dans cet article, nous étudions l'efficacité des vision transformers dans l'apprentissage génératif basé sur la diffusion. Plus précisément, nous proposons un nouveau modèle, appelé Diffusion Vision Transformers (DiffiT), qui consiste en une architecture hiérarchique hybride avec un encodeur et un décodeur en forme de U. Nous introduisons un nouveau module d'auto-attention dépendant du temps qui permet aux couches d'attention d'adapter leur comportement à différentes étapes du processus de débruitage de manière efficace. Nous introduisons également DiffiT latent, qui consiste en un modèle de transformer avec les couches d'auto-attention proposées, pour la génération d'images haute résolution. Nos résultats montrent que DiffiT est étonnamment efficace pour générer des images de haute fidélité, et il atteint des benchmarks de pointe (SOTA) sur une variété de tâches de synthèse conditionnelle et non conditionnelle. Dans l'espace latent, DiffiT atteint un nouveau score SOTA FID de 1,73 sur le jeu de données ImageNet-256. Dépôt : https://github.com/NVlabs/DiffiT
English
Diffusion models with their powerful expressivity and high sample quality
have enabled many new applications and use-cases in various domains. For sample
generation, these models rely on a denoising neural network that generates
images by iterative denoising. Yet, the role of denoising network architecture
is not well-studied with most efforts relying on convolutional residual U-Nets.
In this paper, we study the effectiveness of vision transformers in
diffusion-based generative learning. Specifically, we propose a new model,
denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid
hierarchical architecture with a U-shaped encoder and decoder. We introduce a
novel time-dependent self-attention module that allows attention layers to
adapt their behavior at different stages of the denoising process in an
efficient manner. We also introduce latent DiffiT which consists of transformer
model with the proposed self-attention layers, for high-resolution image
generation. Our results show that DiffiT is surprisingly effective in
generating high-fidelity images, and it achieves state-of-the-art (SOTA)
benchmarks on a variety of class-conditional and unconditional synthesis tasks.
In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on
ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT