DiffiT: Diffusions-Vision-Transformatoren für die Bildgenerierung

papers.abstract

Diffusionsmodelle mit ihrer mächtigen Ausdrucksfähigkeit und hohen Probenqualität haben viele neue Anwendungen und Anwendungsfälle in verschiedenen Domänen ermöglicht. Für die Probenerzeugung verlassen sich diese Modelle auf ein denoisierendes neuronales Netzwerk, das Bilder durch iteratives Entrauschen erzeugt. Dennoch ist die Rolle der Architektur des denoisierenden Netzwerks nicht gut erforscht, wobei sich die meisten Bemühungen auf faltungsbasierte Residual-U-Nets stützen. In diesem Artikel untersuchen wir die Effektivität von Vision Transformern im diffusionsbasierten generativen Lernen. Insbesondere schlagen wir ein neues Modell vor, das als Diffusion Vision Transformers (DiffiT) bezeichnet wird und aus einer hybriden hierarchischen Architektur mit einem U-förmigen Encoder und Decoder besteht. Wir führen ein neuartiges zeitabhängiges Self-Attention-Modul ein, das es Attention-Schichten ermöglicht, ihr Verhalten in verschiedenen Phasen des Entrauschungsprozesses effizient anzupassen. Wir stellen auch latent DiffiT vor, das aus einem Transformermodell mit den vorgeschlagenen Self-Attention-Schichten besteht und für die Erzeugung hochauflösender Bilder verwendet wird. Unsere Ergebnisse zeigen, dass DiffiT überraschend effektiv bei der Erzeugung hochwertiger Bilder ist und state-of-the-art (SOTA) Benchmarks bei einer Vielzahl von klassenbedingten und unbedingten Syntheseaufgaben erreicht. Im latenten Raum erreicht DiffiT einen neuen SOTA FID-Score von 1,73 auf dem ImageNet-256-Datensatz. Repository: https://github.com/NVlabs/DiffiT

English

Diffusion models with their powerful expressivity and high sample quality have enabled many new applications and use-cases in various domains. For sample generation, these models rely on a denoising neural network that generates images by iterative denoising. Yet, the role of denoising network architecture is not well-studied with most efforts relying on convolutional residual U-Nets. In this paper, we study the effectiveness of vision transformers in diffusion-based generative learning. Specifically, we propose a new model, denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid hierarchical architecture with a U-shaped encoder and decoder. We introduce a novel time-dependent self-attention module that allows attention layers to adapt their behavior at different stages of the denoising process in an efficient manner. We also introduce latent DiffiT which consists of transformer model with the proposed self-attention layers, for high-resolution image generation. Our results show that DiffiT is surprisingly effective in generating high-fidelity images, and it achieves state-of-the-art (SOTA) benchmarks on a variety of class-conditional and unconditional synthesis tasks. In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT

DiffiT: Diffusions-Vision-Transformatoren für die Bildgenerierung

DiffiT: Diffusion Vision Transformers for Image Generation

papers.abstract

Support