ChatPaper.aiChatPaper

DiffiT: Трансформеры с диффузией для генерации изображений

DiffiT: Diffusion Vision Transformers for Image Generation

December 4, 2023
Авторы: Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat
cs.AI

Аннотация

Диффузионные модели с их мощной выразительностью и высоким качеством генерации образцов открыли множество новых приложений и сценариев использования в различных областях. Для генерации образцов эти модели полагаются на нейронную сеть для удаления шума, которая создает изображения путем итеративного устранения шума. Однако роль архитектуры сети для удаления шума изучена недостаточно, и большинство усилий сосредоточено на сверточных остаточных U-Net. В данной статье мы исследуем эффективность трансформеров в генеративном обучении на основе диффузии. В частности, мы предлагаем новую модель, обозначенную как Diffusion Vision Transformers (DiffiT), которая состоит из гибридной иерархической архитектуры с U-образным кодировщиком и декодировщиком. Мы вводим новый временно-зависимый модуль самовнимания, который позволяет слоям внимания адаптировать свое поведение на разных этапах процесса удаления шума эффективным образом. Мы также представляем латентный DiffiT, который состоит из трансформера с предложенными слоями самовнимания, для генерации изображений с высоким разрешением. Наши результаты показывают, что DiffiT неожиданно эффективен в создании изображений с высокой точностью и достигает современных (SOTA) результатов на различных задачах условного и безусловного синтеза. В латентном пространстве DiffiT устанавливает новый рекорд SOTA с показателем FID 1.73 на наборе данных ImageNet-256. Репозиторий: https://github.com/NVlabs/DiffiT.
English
Diffusion models with their powerful expressivity and high sample quality have enabled many new applications and use-cases in various domains. For sample generation, these models rely on a denoising neural network that generates images by iterative denoising. Yet, the role of denoising network architecture is not well-studied with most efforts relying on convolutional residual U-Nets. In this paper, we study the effectiveness of vision transformers in diffusion-based generative learning. Specifically, we propose a new model, denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid hierarchical architecture with a U-shaped encoder and decoder. We introduce a novel time-dependent self-attention module that allows attention layers to adapt their behavior at different stages of the denoising process in an efficient manner. We also introduce latent DiffiT which consists of transformer model with the proposed self-attention layers, for high-resolution image generation. Our results show that DiffiT is surprisingly effective in generating high-fidelity images, and it achieves state-of-the-art (SOTA) benchmarks on a variety of class-conditional and unconditional synthesis tasks. In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT
PDF162December 15, 2024