DART : Transformateur Autorégressif de Débruitage pour la Génération Évolutive de Texte vers Image
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation
October 10, 2024
Auteurs: Jiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai
cs.AI
Résumé
Les modèles de diffusion sont devenus l'approche dominante pour la génération visuelle. Ils sont entraînés en débruitant un processus markovien qui ajoute progressivement du bruit à l'entrée. Nous soutenons que la propriété markovienne limite la capacité des modèles à exploiter pleinement la trajectoire de génération, entraînant des inefficacités lors de l'entraînement et de l'inférence. Dans cet article, nous proposons DART, un modèle basé sur un transformateur qui unifie l'autorégressif (AR) et la diffusion au sein d'un cadre non markovien. DART débruite de manière itérative des patchs d'image spatialement et spectralement en utilisant un modèle AR avec la même architecture que les modèles de langage standard. DART ne repose pas sur la quantification d'image, ce qui permet une modélisation d'image plus efficace tout en conservant la flexibilité. De plus, DART s'entraîne de manière transparente avec à la fois des données textuelles et des données d'image dans un modèle unifié. Notre approche démontre des performances compétitives sur des tâches de génération conditionnée par classe et de texte à image, offrant une alternative évolutive et efficace aux modèles de diffusion traditionnels. Grâce à ce cadre unifié, DART établit une nouvelle référence en matière de synthèse d'image évolutive et de haute qualité.
English
Diffusion models have become the dominant approach for visual generation.
They are trained by denoising a Markovian process that gradually adds noise to
the input. We argue that the Markovian property limits the models ability to
fully utilize the generation trajectory, leading to inefficiencies during
training and inference. In this paper, we propose DART, a transformer-based
model that unifies autoregressive (AR) and diffusion within a non-Markovian
framework. DART iteratively denoises image patches spatially and spectrally
using an AR model with the same architecture as standard language models. DART
does not rely on image quantization, enabling more effective image modeling
while maintaining flexibility. Furthermore, DART seamlessly trains with both
text and image data in a unified model. Our approach demonstrates competitive
performance on class-conditioned and text-to-image generation tasks, offering a
scalable, efficient alternative to traditional diffusion models. Through this
unified framework, DART sets a new benchmark for scalable, high-quality image
synthesis.Summary
AI-Generated Summary