DART: Transformador Autoregresivo de Desruido para la Generación Escalable de Texto a Imagen

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

October 10, 2024
Autores: Jiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai
cs.AI

Resumen

Los modelos de difusión se han convertido en el enfoque dominante para la generación visual. Se entrenan mediante el proceso de desruido de un proceso markoviano que añade gradualmente ruido a la entrada. Sostenemos que la propiedad markoviana limita la capacidad de los modelos para utilizar completamente la trayectoria de generación, lo que conduce a ineficiencias durante el entrenamiento y la inferencia. En este documento, proponemos DART, un modelo basado en transformadores que unifica los modelos autorregresivos (AR) y de difusión dentro de un marco no markoviano. DART desruidiza de forma iterativa parches de imagen espacial y espectralmente utilizando un modelo AR con la misma arquitectura que los modelos de lenguaje estándar. DART no depende de la cuantización de imágenes, lo que permite una modelización de imágenes más efectiva manteniendo la flexibilidad. Además, DART se entrena de manera fluida con datos de texto e imágenes en un modelo unificado. Nuestro enfoque demuestra un rendimiento competitivo en tareas de generación condicionada por clase y de texto a imagen, ofreciendo una alternativa escalable y eficiente a los modelos de difusión tradicionales. A través de este marco unificado, DART establece un nuevo punto de referencia para la síntesis de imágenes escalable y de alta calidad.
English
Diffusion models have become the dominant approach for visual generation. They are trained by denoising a Markovian process that gradually adds noise to the input. We argue that the Markovian property limits the models ability to fully utilize the generation trajectory, leading to inefficiencies during training and inference. In this paper, we propose DART, a transformer-based model that unifies autoregressive (AR) and diffusion within a non-Markovian framework. DART iteratively denoises image patches spatially and spectrally using an AR model with the same architecture as standard language models. DART does not rely on image quantization, enabling more effective image modeling while maintaining flexibility. Furthermore, DART seamlessly trains with both text and image data in a unified model. Our approach demonstrates competitive performance on class-conditioned and text-to-image generation tasks, offering a scalable, efficient alternative to traditional diffusion models. Through this unified framework, DART sets a new benchmark for scalable, high-quality image synthesis.
PDF252November 16, 2024