DART: Transformador Autoregresivo de Desruido para la Generación Escalable de Texto a Imagen
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation
October 10, 2024
Autores: Jiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai
cs.AI
Resumen
Los modelos de difusión se han convertido en el enfoque dominante para la generación visual. Se entrenan mediante el proceso de desruido de un proceso markoviano que añade gradualmente ruido a la entrada. Sostenemos que la propiedad markoviana limita la capacidad de los modelos para utilizar completamente la trayectoria de generación, lo que conduce a ineficiencias durante el entrenamiento y la inferencia. En este documento, proponemos DART, un modelo basado en transformadores que unifica los modelos autorregresivos (AR) y de difusión dentro de un marco no markoviano. DART desruidiza de forma iterativa parches de imagen espacial y espectralmente utilizando un modelo AR con la misma arquitectura que los modelos de lenguaje estándar. DART no depende de la cuantización de imágenes, lo que permite una modelización de imágenes más efectiva manteniendo la flexibilidad. Además, DART se entrena de manera fluida con datos de texto e imágenes en un modelo unificado. Nuestro enfoque demuestra un rendimiento competitivo en tareas de generación condicionada por clase y de texto a imagen, ofreciendo una alternativa escalable y eficiente a los modelos de difusión tradicionales. A través de este marco unificado, DART establece un nuevo punto de referencia para la síntesis de imágenes escalable y de alta calidad.
English
Diffusion models have become the dominant approach for visual generation.
They are trained by denoising a Markovian process that gradually adds noise to
the input. We argue that the Markovian property limits the models ability to
fully utilize the generation trajectory, leading to inefficiencies during
training and inference. In this paper, we propose DART, a transformer-based
model that unifies autoregressive (AR) and diffusion within a non-Markovian
framework. DART iteratively denoises image patches spatially and spectrally
using an AR model with the same architecture as standard language models. DART
does not rely on image quantization, enabling more effective image modeling
while maintaining flexibility. Furthermore, DART seamlessly trains with both
text and image data in a unified model. Our approach demonstrates competitive
performance on class-conditioned and text-to-image generation tasks, offering a
scalable, efficient alternative to traditional diffusion models. Through this
unified framework, DART sets a new benchmark for scalable, high-quality image
synthesis.