D-AR: Diffusione tramite Modelli Autoregressivi

Abstract

Questo articolo presenta Diffusion via Autoregressive models (D-AR), un nuovo paradigma che riformula il processo di diffusione delle immagini come una procedura autoregressiva standard nel tipico schema di previsione del token successivo. Iniziamo progettando il tokenizer che converte le immagini in sequenze di token discreti, dove i token in posizioni diverse possono essere decodificati in diversi passaggi di denoising della diffusione nello spazio dei pixel. Grazie alle proprietà della diffusione, questi token seguono naturalmente un ordine da grossolano a fine, che si presta direttamente alla modellazione autoregressiva. Pertanto, applichiamo la previsione standard del token successivo su questi token, senza modificare alcun design sottostante (né maschere causali né strategie di addestramento/inferenza), e tale generazione sequenziale di token autoregressivi riflette direttamente la procedura di diffusione nello spazio delle immagini. Cioè, una volta che il modello autoregressivo genera un incremento di token, possiamo direttamente decodificare questi token nel corrispondente passaggio di denoising della diffusione in modalità streaming. La nostra pipeline rivela naturalmente diverse proprietà intriganti, ad esempio, supporta anteprime consistenti quando si genera solo un sottoinsieme di token e consente la sintesi controllata dal layout zero-shot. Sul benchmark standard di ImageNet, il nostro metodo raggiunge un FID di 2.09 utilizzando un backbone Llama da 775M con 256 token discreti. Speriamo che il nostro lavoro possa ispirare future ricerche su architetture autoregressive unificate per la sintesi visiva, specialmente con modelli linguistici di grandi dimensioni. Codice e modelli saranno disponibili su https://github.com/showlab/D-AR.

English

This paper presents Diffusion via Autoregressive models (D-AR), a new paradigm recasting the image diffusion process as a vanilla autoregressive procedure in the standard next-token-prediction fashion. We start by designing the tokenizer that converts images into sequences of discrete tokens, where tokens in different positions can be decoded into different diffusion denoising steps in the pixel space. Thanks to the diffusion properties, these tokens naturally follow a coarse-to-fine order, which directly lends itself to autoregressive modeling. Therefore, we apply standard next-token prediction on these tokens, without modifying any underlying designs (either causal masks or training/inference strategies), and such sequential autoregressive token generation directly mirrors the diffusion procedure in image space. That is, once the autoregressive model generates an increment of tokens, we can directly decode these tokens into the corresponding diffusion denoising step in the streaming manner. Our pipeline naturally reveals several intriguing properties, for example, it supports consistent previews when generating only a subset of tokens and enables zero-shot layout-controlled synthesis. On the standard ImageNet benchmark, our method achieves 2.09 FID using a 775M Llama backbone with 256 discrete tokens. We hope our work can inspire future research on unified autoregressive architectures of visual synthesis, especially with large language models. Code and models will be available at https://github.com/showlab/D-AR

D-AR: Diffusione tramite Modelli Autoregressivi

D-AR: Diffusion via Autoregressive Models

Abstract

Support