ChatPaper.aiChatPaper

DART: 확장 가능한 텍스트에서 이미지로의 노이즈 제거 자기회귀 트랜스포머

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

October 10, 2024
저자: Jiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai
cs.AI

초록

확산 모델은 시각 생성을 위한 주요 방법론이 되었습니다. 이 모델들은 입력에 점진적으로 노이즈를 추가하는 마르코프 과정을 정리함으로써 훈련됩니다. 우리는 마르코프 특성이 모델이 생성 궤적을 완전히 활용하는 능력을 제한하며, 훈련 및 추론 중에 비효율성을 초래한다고 주장합니다. 본 논문에서는 AR(자기회귀) 및 확산을 마르코프가 아닌 프레임워크 내에서 통합하는 트랜스포머 기반 모델인 DART를 제안합니다. DART는 표준 언어 모델과 동일한 구조를 가진 AR 모델을 사용하여 이미지 패치를 공간적 및 스펙트럴적으로 반복적으로 정리합니다. DART는 이미지 양자화에 의존하지 않으며, 더 효과적인 이미지 모델링을 가능하게 하면서도 유연성을 유지합니다. 게다가 DART는 텍스트와 이미지 데이터 모두를 통합된 모델에서 원활하게 훈련시킬 수 있습니다. 우리의 접근 방식은 클래스 조건부 및 텍스트-이미지 생성 작업에서 경쟁력 있는 성능을 보여주며, 전통적인 확산 모델에 대한 확장 가능하고 효율적인 대안을 제공합니다. 이 통합된 프레임워크를 통해 DART는 확장 가능하고 고품질의 이미지 합성을 위한 새로운 기준을 제시합니다.
English
Diffusion models have become the dominant approach for visual generation. They are trained by denoising a Markovian process that gradually adds noise to the input. We argue that the Markovian property limits the models ability to fully utilize the generation trajectory, leading to inefficiencies during training and inference. In this paper, we propose DART, a transformer-based model that unifies autoregressive (AR) and diffusion within a non-Markovian framework. DART iteratively denoises image patches spatially and spectrally using an AR model with the same architecture as standard language models. DART does not rely on image quantization, enabling more effective image modeling while maintaining flexibility. Furthermore, DART seamlessly trains with both text and image data in a unified model. Our approach demonstrates competitive performance on class-conditioned and text-to-image generation tasks, offering a scalable, efficient alternative to traditional diffusion models. Through this unified framework, DART sets a new benchmark for scalable, high-quality image synthesis.

Summary

AI-Generated Summary

PDF252November 16, 2024