DiSA : Recuit des étapes de diffusion dans la génération d'images autoregressive

papers.abstract

Un nombre croissant de modèles autorégressifs, tels que MAR, FlowAR, xAR et Harmon, adoptent l'échantillonnage par diffusion pour améliorer la qualité de la génération d'images. Cependant, cette stratégie entraîne une faible efficacité d'inférence, car il faut généralement entre 50 et 100 étapes de diffusion pour échantillonner un token. Cet article explore comment résoudre efficacement ce problème. Notre motivation clé est qu'à mesure que davantage de tokens sont générés au cours du processus autorégressif, les tokens suivants suivent des distributions plus contraintes et sont plus faciles à échantillonner. Pour l'expliquer intuitivement, si un modèle a généré une partie d'un chien, les tokens restants doivent compléter le chien et sont donc plus contraints. Des preuves empiriques soutiennent notre motivation : aux étapes ultérieures de la génération, les tokens suivants peuvent être bien prédits par un perceptron multicouche, présentent une faible variance et suivent des trajectoires de débruitage plus proches de lignes droites, du bruit au token. Sur la base de cette découverte, nous introduisons l'**annealing des étapes de diffusion (DiSA)**, une méthode sans entraînement qui utilise progressivement moins d'étapes de diffusion à mesure que davantage de tokens sont générés, par exemple en utilisant 50 étapes au début et en diminuant progressivement à 5 étapes aux étapes ultérieures. Comme DiSA découle de notre découverte spécifique à la diffusion dans les modèles autorégressifs, elle est complémentaire aux méthodes d'accélération existantes conçues uniquement pour la diffusion. DiSA peut être implémentée en quelques lignes de code sur les modèles existants, et bien que simple, elle permet une inférence 5 à 10 fois plus rapide pour MAR et Harmon, et 1,4 à 2,5 fois plus rapide pour FlowAR et xAR, tout en maintenant la qualité de la génération.

English

An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and Harmon adopt diffusion sampling to improve the quality of image generation. However, this strategy leads to low inference efficiency, because it usually takes 50 to 100 steps for diffusion to sample a token. This paper explores how to effectively address this issue. Our key motivation is that as more tokens are generated during the autoregressive process, subsequent tokens follow more constrained distributions and are easier to sample. To intuitively explain, if a model has generated part of a dog, the remaining tokens must complete the dog and thus are more constrained. Empirical evidence supports our motivation: at later generation stages, the next tokens can be well predicted by a multilayer perceptron, exhibit low variance, and follow closer-to-straight-line denoising paths from noise to tokens. Based on our finding, we introduce diffusion step annealing (DiSA), a training-free method which gradually uses fewer diffusion steps as more tokens are generated, e.g., using 50 steps at the beginning and gradually decreasing to 5 steps at later stages. Because DiSA is derived from our finding specific to diffusion in autoregressive models, it is complementary to existing acceleration methods designed for diffusion alone. DiSA can be implemented in only a few lines of code on existing models, and albeit simple, achieves 5-10times faster inference for MAR and Harmon and 1.4-2.5times for FlowAR and xAR, while maintaining the generation quality.

DiSA : Recuit des étapes de diffusion dans la génération d'images autoregressive

DiSA: Diffusion Step Annealing in Autoregressive Image Generation

papers.abstract

Support