DiffiT : Transformers de Vision par Diffusion pour la Génération d'Images

papers.abstract

Les modèles de diffusion, avec leur expressivité puissante et leur haute qualité d'échantillonnage, ont permis de nombreuses nouvelles applications et cas d'utilisation dans divers domaines. Pour la génération d'échantillons, ces modèles s'appuient sur un réseau de neurones de débruitage qui génère des images par itération de débruitage. Cependant, le rôle de l'architecture du réseau de débruitage n'est pas bien étudié, la plupart des efforts reposant sur des U-Nets résiduels convolutifs. Dans cet article, nous étudions l'efficacité des vision transformers dans l'apprentissage génératif basé sur la diffusion. Plus précisément, nous proposons un nouveau modèle, appelé Diffusion Vision Transformers (DiffiT), qui consiste en une architecture hiérarchique hybride avec un encodeur et un décodeur en forme de U. Nous introduisons un nouveau module d'auto-attention dépendant du temps qui permet aux couches d'attention d'adapter leur comportement à différentes étapes du processus de débruitage de manière efficace. Nous introduisons également DiffiT latent, qui consiste en un modèle de transformer avec les couches d'auto-attention proposées, pour la génération d'images haute résolution. Nos résultats montrent que DiffiT est étonnamment efficace pour générer des images de haute fidélité, et il atteint des benchmarks de pointe (SOTA) sur une variété de tâches de synthèse conditionnelle et non conditionnelle. Dans l'espace latent, DiffiT atteint un nouveau score SOTA FID de 1,73 sur le jeu de données ImageNet-256. Dépôt : https://github.com/NVlabs/DiffiT

English

Diffusion models with their powerful expressivity and high sample quality have enabled many new applications and use-cases in various domains. For sample generation, these models rely on a denoising neural network that generates images by iterative denoising. Yet, the role of denoising network architecture is not well-studied with most efforts relying on convolutional residual U-Nets. In this paper, we study the effectiveness of vision transformers in diffusion-based generative learning. Specifically, we propose a new model, denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid hierarchical architecture with a U-shaped encoder and decoder. We introduce a novel time-dependent self-attention module that allows attention layers to adapt their behavior at different stages of the denoising process in an efficient manner. We also introduce latent DiffiT which consists of transformer model with the proposed self-attention layers, for high-resolution image generation. Our results show that DiffiT is surprisingly effective in generating high-fidelity images, and it achieves state-of-the-art (SOTA) benchmarks on a variety of class-conditional and unconditional synthesis tasks. In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT

DiffiT : Transformers de Vision par Diffusion pour la Génération d'Images

DiffiT: Diffusion Vision Transformers for Image Generation

papers.abstract

Support