DiSA: Annealing del Passo di Diffusione nella Generazione Autoregressiva di Immagini
DiSA: Diffusion Step Annealing in Autoregressive Image Generation
May 26, 2025
Autori: Qinyu Zhao, Jaskirat Singh, Ming Xu, Akshay Asthana, Stephen Gould, Liang Zheng
cs.AI
Abstract
Un numero crescente di modelli autoregressivi, come MAR, FlowAR, xAR e Harmon, adotta il campionamento basato su diffusione per migliorare la qualità della generazione di immagini. Tuttavia, questa strategia comporta una bassa efficienza nell'inferenza, poiché di solito sono necessari da 50 a 100 passaggi per campionare un token attraverso la diffusione. Questo articolo esplora come affrontare efficacemente questo problema. La nostra motivazione chiave è che, man mano che vengono generati più token durante il processo autoregressivo, i token successivi seguono distribuzioni più vincolate e sono più facili da campionare. Per spiegarlo in modo intuitivo, se un modello ha generato parte di un cane, i token rimanenti devono completare il cane e sono quindi più vincolati. Le evidenze empiriche supportano la nostra motivazione: nelle fasi successive della generazione, i token successivi possono essere ben predetti da un perceptron multistrato, mostrano una bassa varianza e seguono percorsi di denoising più vicini a linee rette dal rumore ai token. Sulla base di questa scoperta, introduciamo il metodo di annealing dei passaggi di diffusione (DiSA), un approccio senza necessità di addestramento che utilizza gradualmente meno passaggi di diffusione man mano che vengono generati più token, ad esempio utilizzando 50 passaggi all'inizio e riducendoli gradualmente a 5 passaggi nelle fasi successive. Poiché DiSA deriva dalla nostra scoperta specifica per la diffusione nei modelli autoregressivi, è complementare ai metodi di accelerazione esistenti progettati esclusivamente per la diffusione. DiSA può essere implementato con poche righe di codice sui modelli esistenti e, sebbene semplice, consente un'inferenza da 5 a 10 volte più veloce per MAR e Harmon e da 1,4 a 2,5 volte più veloce per FlowAR e xAR, mantenendo la qualità della generazione.
English
An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and
Harmon adopt diffusion sampling to improve the quality of image generation.
However, this strategy leads to low inference efficiency, because it usually
takes 50 to 100 steps for diffusion to sample a token. This paper explores how
to effectively address this issue. Our key motivation is that as more tokens
are generated during the autoregressive process, subsequent tokens follow more
constrained distributions and are easier to sample. To intuitively explain, if
a model has generated part of a dog, the remaining tokens must complete the dog
and thus are more constrained. Empirical evidence supports our motivation: at
later generation stages, the next tokens can be well predicted by a multilayer
perceptron, exhibit low variance, and follow closer-to-straight-line denoising
paths from noise to tokens. Based on our finding, we introduce diffusion step
annealing (DiSA), a training-free method which gradually uses fewer diffusion
steps as more tokens are generated, e.g., using 50 steps at the beginning and
gradually decreasing to 5 steps at later stages. Because DiSA is derived from
our finding specific to diffusion in autoregressive models, it is complementary
to existing acceleration methods designed for diffusion alone. DiSA can be
implemented in only a few lines of code on existing models, and albeit simple,
achieves 5-10times faster inference for MAR and Harmon and 1.4-2.5times
for FlowAR and xAR, while maintaining the generation quality.