D-AR: Difusión mediante Modelos Autoregresivos
D-AR: Diffusion via Autoregressive Models
May 29, 2025
Autores: Ziteng Gao, Mike Zheng Shou
cs.AI
Resumen
Este artículo presenta Difusión mediante Modelos Autoregresivos (D-AR), un nuevo paradigma que reformula el proceso de difusión de imágenes como un procedimiento autoregresivo estándar en el estilo de predicción del siguiente token. Comenzamos diseñando el tokenizador que convierte imágenes en secuencias de tokens discretos, donde los tokens en diferentes posiciones pueden decodificarse en diferentes pasos de eliminación de ruido de difusión en el espacio de píxeles. Gracias a las propiedades de la difusión, estos tokens siguen naturalmente un orden de lo general a lo detallado, lo que se presta directamente al modelado autoregresivo. Por lo tanto, aplicamos la predicción estándar del siguiente token sobre estos tokens, sin modificar ningún diseño subyacente (ya sean máscaras causales o estrategias de entrenamiento/inferencia), y esta generación secuencial de tokens autoregresivos refleja directamente el procedimiento de difusión en el espacio de imágenes. Es decir, una vez que el modelo autoregresivo genera un incremento de tokens, podemos decodificar directamente estos tokens en el correspondiente paso de eliminación de ruido de difusión de manera continua. Nuestro pipeline revela naturalmente varias propiedades intrigantes, por ejemplo, admite vistas previas consistentes al generar solo un subconjunto de tokens y permite la síntesis controlada por diseño sin necesidad de ajuste previo. En el benchmark estándar de ImageNet, nuestro método logra un FID de 2.09 utilizando un backbone Llama de 775M con 256 tokens discretos. Esperamos que nuestro trabajo inspire futuras investigaciones sobre arquitecturas autoregresivas unificadas para la síntesis visual, especialmente con modelos de lenguaje grandes. El código y los modelos estarán disponibles en https://github.com/showlab/D-AR.
English
This paper presents Diffusion via Autoregressive models (D-AR), a new
paradigm recasting the image diffusion process as a vanilla autoregressive
procedure in the standard next-token-prediction fashion. We start by designing
the tokenizer that converts images into sequences of discrete tokens, where
tokens in different positions can be decoded into different diffusion denoising
steps in the pixel space. Thanks to the diffusion properties, these tokens
naturally follow a coarse-to-fine order, which directly lends itself to
autoregressive modeling. Therefore, we apply standard next-token prediction on
these tokens, without modifying any underlying designs (either causal masks or
training/inference strategies), and such sequential autoregressive token
generation directly mirrors the diffusion procedure in image space. That is,
once the autoregressive model generates an increment of tokens, we can directly
decode these tokens into the corresponding diffusion denoising step in the
streaming manner. Our pipeline naturally reveals several intriguing properties,
for example, it supports consistent previews when generating only a subset of
tokens and enables zero-shot layout-controlled synthesis. On the standard
ImageNet benchmark, our method achieves 2.09 FID using a 775M Llama backbone
with 256 discrete tokens. We hope our work can inspire future research on
unified autoregressive architectures of visual synthesis, especially with large
language models. Code and models will be available at
https://github.com/showlab/D-ARSummary
AI-Generated Summary