DiffiT: Diffusions-Vision-Transformatoren für die Bildgenerierung
DiffiT: Diffusion Vision Transformers for Image Generation
December 4, 2023
Autoren: Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat
cs.AI
Zusammenfassung
Diffusionsmodelle mit ihrer mächtigen Ausdrucksfähigkeit und hohen Probenqualität haben viele neue Anwendungen und Anwendungsfälle in verschiedenen Domänen ermöglicht. Für die Probenerzeugung verlassen sich diese Modelle auf ein denoisierendes neuronales Netzwerk, das Bilder durch iteratives Entrauschen erzeugt. Dennoch ist die Rolle der Architektur des denoisierenden Netzwerks nicht gut erforscht, wobei sich die meisten Bemühungen auf faltungsbasierte Residual-U-Nets stützen. In diesem Artikel untersuchen wir die Effektivität von Vision Transformern im diffusionsbasierten generativen Lernen. Insbesondere schlagen wir ein neues Modell vor, das als Diffusion Vision Transformers (DiffiT) bezeichnet wird und aus einer hybriden hierarchischen Architektur mit einem U-förmigen Encoder und Decoder besteht. Wir führen ein neuartiges zeitabhängiges Self-Attention-Modul ein, das es Attention-Schichten ermöglicht, ihr Verhalten in verschiedenen Phasen des Entrauschungsprozesses effizient anzupassen. Wir stellen auch latent DiffiT vor, das aus einem Transformermodell mit den vorgeschlagenen Self-Attention-Schichten besteht und für die Erzeugung hochauflösender Bilder verwendet wird. Unsere Ergebnisse zeigen, dass DiffiT überraschend effektiv bei der Erzeugung hochwertiger Bilder ist und state-of-the-art (SOTA) Benchmarks bei einer Vielzahl von klassenbedingten und unbedingten Syntheseaufgaben erreicht. Im latenten Raum erreicht DiffiT einen neuen SOTA FID-Score von 1,73 auf dem ImageNet-256-Datensatz. Repository: https://github.com/NVlabs/DiffiT
English
Diffusion models with their powerful expressivity and high sample quality
have enabled many new applications and use-cases in various domains. For sample
generation, these models rely on a denoising neural network that generates
images by iterative denoising. Yet, the role of denoising network architecture
is not well-studied with most efforts relying on convolutional residual U-Nets.
In this paper, we study the effectiveness of vision transformers in
diffusion-based generative learning. Specifically, we propose a new model,
denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid
hierarchical architecture with a U-shaped encoder and decoder. We introduce a
novel time-dependent self-attention module that allows attention layers to
adapt their behavior at different stages of the denoising process in an
efficient manner. We also introduce latent DiffiT which consists of transformer
model with the proposed self-attention layers, for high-resolution image
generation. Our results show that DiffiT is surprisingly effective in
generating high-fidelity images, and it achieves state-of-the-art (SOTA)
benchmarks on a variety of class-conditional and unconditional synthesis tasks.
In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on
ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT