D-AR: Difusión mediante Modelos Autoregresivos

Resumen

Este artículo presenta Difusión mediante Modelos Autoregresivos (D-AR), un nuevo paradigma que reformula el proceso de difusión de imágenes como un procedimiento autoregresivo estándar en el estilo de predicción del siguiente token. Comenzamos diseñando el tokenizador que convierte imágenes en secuencias de tokens discretos, donde los tokens en diferentes posiciones pueden decodificarse en diferentes pasos de eliminación de ruido de difusión en el espacio de píxeles. Gracias a las propiedades de la difusión, estos tokens siguen naturalmente un orden de lo general a lo detallado, lo que se presta directamente al modelado autoregresivo. Por lo tanto, aplicamos la predicción estándar del siguiente token sobre estos tokens, sin modificar ningún diseño subyacente (ya sean máscaras causales o estrategias de entrenamiento/inferencia), y esta generación secuencial de tokens autoregresivos refleja directamente el procedimiento de difusión en el espacio de imágenes. Es decir, una vez que el modelo autoregresivo genera un incremento de tokens, podemos decodificar directamente estos tokens en el correspondiente paso de eliminación de ruido de difusión de manera continua. Nuestro pipeline revela naturalmente varias propiedades intrigantes, por ejemplo, admite vistas previas consistentes al generar solo un subconjunto de tokens y permite la síntesis controlada por diseño sin necesidad de ajuste previo. En el benchmark estándar de ImageNet, nuestro método logra un FID de 2.09 utilizando un backbone Llama de 775M con 256 tokens discretos. Esperamos que nuestro trabajo inspire futuras investigaciones sobre arquitecturas autoregresivas unificadas para la síntesis visual, especialmente con modelos de lenguaje grandes. El código y los modelos estarán disponibles en https://github.com/showlab/D-AR.

English

This paper presents Diffusion via Autoregressive models (D-AR), a new paradigm recasting the image diffusion process as a vanilla autoregressive procedure in the standard next-token-prediction fashion. We start by designing the tokenizer that converts images into sequences of discrete tokens, where tokens in different positions can be decoded into different diffusion denoising steps in the pixel space. Thanks to the diffusion properties, these tokens naturally follow a coarse-to-fine order, which directly lends itself to autoregressive modeling. Therefore, we apply standard next-token prediction on these tokens, without modifying any underlying designs (either causal masks or training/inference strategies), and such sequential autoregressive token generation directly mirrors the diffusion procedure in image space. That is, once the autoregressive model generates an increment of tokens, we can directly decode these tokens into the corresponding diffusion denoising step in the streaming manner. Our pipeline naturally reveals several intriguing properties, for example, it supports consistent previews when generating only a subset of tokens and enables zero-shot layout-controlled synthesis. On the standard ImageNet benchmark, our method achieves 2.09 FID using a 775M Llama backbone with 256 discrete tokens. We hope our work can inspire future research on unified autoregressive architectures of visual synthesis, especially with large language models. Code and models will be available at https://github.com/showlab/D-AR

D-AR: Difusión mediante Modelos Autoregresivos

D-AR: Diffusion via Autoregressive Models

Resumen

Support