D-AR: Diffusione tramite Modelli Autoregressivi
D-AR: Diffusion via Autoregressive Models
May 29, 2025
Autori: Ziteng Gao, Mike Zheng Shou
cs.AI
Abstract
Questo articolo presenta Diffusion via Autoregressive models (D-AR), un nuovo paradigma che riformula il processo di diffusione delle immagini come una procedura autoregressiva standard nel tipico schema di previsione del token successivo. Iniziamo progettando il tokenizer che converte le immagini in sequenze di token discreti, dove i token in posizioni diverse possono essere decodificati in diversi passaggi di denoising della diffusione nello spazio dei pixel. Grazie alle proprietà della diffusione, questi token seguono naturalmente un ordine da grossolano a fine, che si presta direttamente alla modellazione autoregressiva. Pertanto, applichiamo la previsione standard del token successivo su questi token, senza modificare alcun design sottostante (né maschere causali né strategie di addestramento/inferenza), e tale generazione sequenziale di token autoregressivi riflette direttamente la procedura di diffusione nello spazio delle immagini. Cioè, una volta che il modello autoregressivo genera un incremento di token, possiamo direttamente decodificare questi token nel corrispondente passaggio di denoising della diffusione in modalità streaming. La nostra pipeline rivela naturalmente diverse proprietà intriganti, ad esempio, supporta anteprime consistenti quando si genera solo un sottoinsieme di token e consente la sintesi controllata dal layout zero-shot. Sul benchmark standard di ImageNet, il nostro metodo raggiunge un FID di 2.09 utilizzando un backbone Llama da 775M con 256 token discreti. Speriamo che il nostro lavoro possa ispirare future ricerche su architetture autoregressive unificate per la sintesi visiva, specialmente con modelli linguistici di grandi dimensioni. Codice e modelli saranno disponibili su https://github.com/showlab/D-AR.
English
This paper presents Diffusion via Autoregressive models (D-AR), a new
paradigm recasting the image diffusion process as a vanilla autoregressive
procedure in the standard next-token-prediction fashion. We start by designing
the tokenizer that converts images into sequences of discrete tokens, where
tokens in different positions can be decoded into different diffusion denoising
steps in the pixel space. Thanks to the diffusion properties, these tokens
naturally follow a coarse-to-fine order, which directly lends itself to
autoregressive modeling. Therefore, we apply standard next-token prediction on
these tokens, without modifying any underlying designs (either causal masks or
training/inference strategies), and such sequential autoregressive token
generation directly mirrors the diffusion procedure in image space. That is,
once the autoregressive model generates an increment of tokens, we can directly
decode these tokens into the corresponding diffusion denoising step in the
streaming manner. Our pipeline naturally reveals several intriguing properties,
for example, it supports consistent previews when generating only a subset of
tokens and enables zero-shot layout-controlled synthesis. On the standard
ImageNet benchmark, our method achieves 2.09 FID using a 775M Llama backbone
with 256 discrete tokens. We hope our work can inspire future research on
unified autoregressive architectures of visual synthesis, especially with large
language models. Code and models will be available at
https://github.com/showlab/D-AR