DART : Transformateur Autorégressif de Débruitage pour la Génération Évolutive de Texte vers Image

papers.abstract

Les modèles de diffusion sont devenus l'approche dominante pour la génération visuelle. Ils sont entraînés en débruitant un processus markovien qui ajoute progressivement du bruit à l'entrée. Nous soutenons que la propriété markovienne limite la capacité des modèles à exploiter pleinement la trajectoire de génération, entraînant des inefficacités lors de l'entraînement et de l'inférence. Dans cet article, nous proposons DART, un modèle basé sur un transformateur qui unifie l'autorégressif (AR) et la diffusion au sein d'un cadre non markovien. DART débruite de manière itérative des patchs d'image spatialement et spectralement en utilisant un modèle AR avec la même architecture que les modèles de langage standard. DART ne repose pas sur la quantification d'image, ce qui permet une modélisation d'image plus efficace tout en conservant la flexibilité. De plus, DART s'entraîne de manière transparente avec à la fois des données textuelles et des données d'image dans un modèle unifié. Notre approche démontre des performances compétitives sur des tâches de génération conditionnée par classe et de texte à image, offrant une alternative évolutive et efficace aux modèles de diffusion traditionnels. Grâce à ce cadre unifié, DART établit une nouvelle référence en matière de synthèse d'image évolutive et de haute qualité.

English

Diffusion models have become the dominant approach for visual generation. They are trained by denoising a Markovian process that gradually adds noise to the input. We argue that the Markovian property limits the models ability to fully utilize the generation trajectory, leading to inefficiencies during training and inference. In this paper, we propose DART, a transformer-based model that unifies autoregressive (AR) and diffusion within a non-Markovian framework. DART iteratively denoises image patches spatially and spectrally using an AR model with the same architecture as standard language models. DART does not rely on image quantization, enabling more effective image modeling while maintaining flexibility. Furthermore, DART seamlessly trains with both text and image data in a unified model. Our approach demonstrates competitive performance on class-conditioned and text-to-image generation tasks, offering a scalable, efficient alternative to traditional diffusion models. Through this unified framework, DART sets a new benchmark for scalable, high-quality image synthesis.

DART : Transformateur Autorégressif de Débruitage pour la Génération Évolutive de Texte vers Image

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

papers.abstract

Support