DiSA : Recuit des étapes de diffusion dans la génération d'images autoregressive
DiSA: Diffusion Step Annealing in Autoregressive Image Generation
May 26, 2025
Auteurs: Qinyu Zhao, Jaskirat Singh, Ming Xu, Akshay Asthana, Stephen Gould, Liang Zheng
cs.AI
Résumé
Un nombre croissant de modèles autorégressifs, tels que MAR, FlowAR, xAR et Harmon, adoptent l'échantillonnage par diffusion pour améliorer la qualité de la génération d'images. Cependant, cette stratégie entraîne une faible efficacité d'inférence, car il faut généralement entre 50 et 100 étapes de diffusion pour échantillonner un token. Cet article explore comment résoudre efficacement ce problème. Notre motivation clé est qu'à mesure que davantage de tokens sont générés au cours du processus autorégressif, les tokens suivants suivent des distributions plus contraintes et sont plus faciles à échantillonner. Pour l'expliquer intuitivement, si un modèle a généré une partie d'un chien, les tokens restants doivent compléter le chien et sont donc plus contraints. Des preuves empiriques soutiennent notre motivation : aux étapes ultérieures de la génération, les tokens suivants peuvent être bien prédits par un perceptron multicouche, présentent une faible variance et suivent des trajectoires de débruitage plus proches de lignes droites, du bruit au token. Sur la base de cette découverte, nous introduisons l'**annealing des étapes de diffusion (DiSA)**, une méthode sans entraînement qui utilise progressivement moins d'étapes de diffusion à mesure que davantage de tokens sont générés, par exemple en utilisant 50 étapes au début et en diminuant progressivement à 5 étapes aux étapes ultérieures. Comme DiSA découle de notre découverte spécifique à la diffusion dans les modèles autorégressifs, elle est complémentaire aux méthodes d'accélération existantes conçues uniquement pour la diffusion. DiSA peut être implémentée en quelques lignes de code sur les modèles existants, et bien que simple, elle permet une inférence 5 à 10 fois plus rapide pour MAR et Harmon, et 1,4 à 2,5 fois plus rapide pour FlowAR et xAR, tout en maintenant la qualité de la génération.
English
An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and
Harmon adopt diffusion sampling to improve the quality of image generation.
However, this strategy leads to low inference efficiency, because it usually
takes 50 to 100 steps for diffusion to sample a token. This paper explores how
to effectively address this issue. Our key motivation is that as more tokens
are generated during the autoregressive process, subsequent tokens follow more
constrained distributions and are easier to sample. To intuitively explain, if
a model has generated part of a dog, the remaining tokens must complete the dog
and thus are more constrained. Empirical evidence supports our motivation: at
later generation stages, the next tokens can be well predicted by a multilayer
perceptron, exhibit low variance, and follow closer-to-straight-line denoising
paths from noise to tokens. Based on our finding, we introduce diffusion step
annealing (DiSA), a training-free method which gradually uses fewer diffusion
steps as more tokens are generated, e.g., using 50 steps at the beginning and
gradually decreasing to 5 steps at later stages. Because DiSA is derived from
our finding specific to diffusion in autoregressive models, it is complementary
to existing acceleration methods designed for diffusion alone. DiSA can be
implemented in only a few lines of code on existing models, and albeit simple,
achieves 5-10times faster inference for MAR and Harmon and 1.4-2.5times
for FlowAR and xAR, while maintaining the generation quality.Summary
AI-Generated Summary