DiSA: Annealing del Passo di Diffusione nella Generazione Autoregressiva di Immagini

Abstract

Un numero crescente di modelli autoregressivi, come MAR, FlowAR, xAR e Harmon, adotta il campionamento basato su diffusione per migliorare la qualità della generazione di immagini. Tuttavia, questa strategia comporta una bassa efficienza nell'inferenza, poiché di solito sono necessari da 50 a 100 passaggi per campionare un token attraverso la diffusione. Questo articolo esplora come affrontare efficacemente questo problema. La nostra motivazione chiave è che, man mano che vengono generati più token durante il processo autoregressivo, i token successivi seguono distribuzioni più vincolate e sono più facili da campionare. Per spiegarlo in modo intuitivo, se un modello ha generato parte di un cane, i token rimanenti devono completare il cane e sono quindi più vincolati. Le evidenze empiriche supportano la nostra motivazione: nelle fasi successive della generazione, i token successivi possono essere ben predetti da un perceptron multistrato, mostrano una bassa varianza e seguono percorsi di denoising più vicini a linee rette dal rumore ai token. Sulla base di questa scoperta, introduciamo il metodo di annealing dei passaggi di diffusione (DiSA), un approccio senza necessità di addestramento che utilizza gradualmente meno passaggi di diffusione man mano che vengono generati più token, ad esempio utilizzando 50 passaggi all'inizio e riducendoli gradualmente a 5 passaggi nelle fasi successive. Poiché DiSA deriva dalla nostra scoperta specifica per la diffusione nei modelli autoregressivi, è complementare ai metodi di accelerazione esistenti progettati esclusivamente per la diffusione. DiSA può essere implementato con poche righe di codice sui modelli esistenti e, sebbene semplice, consente un'inferenza da 5 a 10 volte più veloce per MAR e Harmon e da 1,4 a 2,5 volte più veloce per FlowAR e xAR, mantenendo la qualità della generazione.

English

An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and Harmon adopt diffusion sampling to improve the quality of image generation. However, this strategy leads to low inference efficiency, because it usually takes 50 to 100 steps for diffusion to sample a token. This paper explores how to effectively address this issue. Our key motivation is that as more tokens are generated during the autoregressive process, subsequent tokens follow more constrained distributions and are easier to sample. To intuitively explain, if a model has generated part of a dog, the remaining tokens must complete the dog and thus are more constrained. Empirical evidence supports our motivation: at later generation stages, the next tokens can be well predicted by a multilayer perceptron, exhibit low variance, and follow closer-to-straight-line denoising paths from noise to tokens. Based on our finding, we introduce diffusion step annealing (DiSA), a training-free method which gradually uses fewer diffusion steps as more tokens are generated, e.g., using 50 steps at the beginning and gradually decreasing to 5 steps at later stages. Because DiSA is derived from our finding specific to diffusion in autoregressive models, it is complementary to existing acceleration methods designed for diffusion alone. DiSA can be implemented in only a few lines of code on existing models, and albeit simple, achieves 5-10times faster inference for MAR and Harmon and 1.4-2.5times for FlowAR and xAR, while maintaining the generation quality.

DiSA: Annealing del Passo di Diffusione nella Generazione Autoregressiva di Immagini

DiSA: Diffusion Step Annealing in Autoregressive Image Generation

Abstract

Support