DiffiT: 이미지 생성을 위한 확산 비전 트랜스포머
DiffiT: Diffusion Vision Transformers for Image Generation
December 4, 2023
저자: Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat
cs.AI
초록
강력한 표현력과 높은 샘플 품질을 갖춘 확산 모델은 다양한 분야에서 많은 새로운 응용 프로그램과 사용 사례를 가능하게 하였다. 샘플 생성의 경우, 이러한 모델은 반복적인 노이즈 제거를 통해 이미지를 생성하는 노이즈 제거 신경망에 의존한다. 그러나 노이즈 제거 네트워크 아키텍처의 역할은 대부분의 연구가 컨볼루션 잔차 U-Net에 의존하면서 충분히 연구되지 않았다. 본 논문에서는 확산 기반 생성 학습에서 비전 트랜스포머의 효과를 연구한다. 구체적으로, 우리는 U-형태의 인코더와 디코더로 구성된 하이브리드 계층적 아키텍처를 갖춘 새로운 모델인 Diffusion Vision Transformers (DiffiT)를 제안한다. 우리는 노이즈 제거 과정의 다양한 단계에서 어텐션 레이어가 효율적으로 그 행동을 조정할 수 있도록 하는 새로운 시간 의존적 자기 어텐션 모듈을 소개한다. 또한, 고해상도 이미지 생성을 위해 제안된 자기 어텐션 레이어를 갖춘 트랜스포머 모델로 구성된 잠재적 DiffiT를 소개한다. 우리의 결과는 DiffiT가 놀라울 정도로 고품질 이미지 생성에 효과적이며, 다양한 클래스 조건부 및 무조건 합성 작업에서 최첨단(SOTA) 벤치마크를 달성함을 보여준다. 잠재 공간에서 DiffiT는 ImageNet-256 데이터셋에서 1.73의 새로운 SOTA FID 점수를 달성한다. 저장소: https://github.com/NVlabs/DiffiT
English
Diffusion models with their powerful expressivity and high sample quality
have enabled many new applications and use-cases in various domains. For sample
generation, these models rely on a denoising neural network that generates
images by iterative denoising. Yet, the role of denoising network architecture
is not well-studied with most efforts relying on convolutional residual U-Nets.
In this paper, we study the effectiveness of vision transformers in
diffusion-based generative learning. Specifically, we propose a new model,
denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid
hierarchical architecture with a U-shaped encoder and decoder. We introduce a
novel time-dependent self-attention module that allows attention layers to
adapt their behavior at different stages of the denoising process in an
efficient manner. We also introduce latent DiffiT which consists of transformer
model with the proposed self-attention layers, for high-resolution image
generation. Our results show that DiffiT is surprisingly effective in
generating high-fidelity images, and it achieves state-of-the-art (SOTA)
benchmarks on a variety of class-conditional and unconditional synthesis tasks.
In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on
ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT