DiSA: Diffusionsschritt-Temperung in der autoregressiven Bildgenerierung
DiSA: Diffusion Step Annealing in Autoregressive Image Generation
May 26, 2025
Autoren: Qinyu Zhao, Jaskirat Singh, Ming Xu, Akshay Asthana, Stephen Gould, Liang Zheng
cs.AI
Zusammenfassung
Eine zunehmende Anzahl von autoregressiven Modellen, wie MAR, FlowAR, xAR und Harmon, setzen Diffusionssampling ein, um die Qualität der Bildgenerierung zu verbessern. Diese Strategie führt jedoch zu einer geringen Inferenzeffizienz, da es in der Regel 50 bis 100 Schritte erfordert, um ein Token durch Diffusion zu sampeln. In diesem Artikel wird untersucht, wie dieses Problem effektiv gelöst werden kann. Unsere zentrale Motivation besteht darin, dass, je mehr Token während des autoregressiven Prozesses generiert werden, die nachfolgenden Token stärker eingeschränkten Verteilungen folgen und somit leichter zu sampeln sind. Um dies intuitiv zu erklären: Wenn ein Modell einen Teil eines Hundes generiert hat, müssen die verbleibenden Token den Hund vervollständigen und sind daher stärker eingeschränkt. Empirische Belege stützen unsere Motivation: In späteren Generierungsphasen können die nächsten Token gut durch ein mehrschichtiges Perzeptron vorhergesagt werden, weisen eine geringe Varianz auf und folgen geradlinigeren Denoising-Pfaden von Rauschen zu Token. Basierend auf dieser Erkenntnis führen wir Diffusionsschritt-Annealing (DiSA) ein, eine trainingsfreie Methode, die schrittweise weniger Diffusionsschritte verwendet, je mehr Token generiert werden, z. B. 50 Schritte am Anfang und eine schrittweise Reduzierung auf 5 Schritte in späteren Phasen. Da DiSA aus unserer spezifischen Erkenntnis zur Diffusion in autoregressiven Modellen abgeleitet ist, ergänzt es bestehende Beschleunigungsmethoden, die ausschließlich für Diffusion entwickelt wurden. DiSA kann mit nur wenigen Codezeilen in bestehenden Modellen implementiert werden und erreicht, obwohl einfach, eine 5-10-fach schnellere Inferenz für MAR und Harmon sowie eine 1,4-2,5-fach schnellere Inferenz für FlowAR und xAR, bei gleichbleibender Generierungsqualität.
English
An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and
Harmon adopt diffusion sampling to improve the quality of image generation.
However, this strategy leads to low inference efficiency, because it usually
takes 50 to 100 steps for diffusion to sample a token. This paper explores how
to effectively address this issue. Our key motivation is that as more tokens
are generated during the autoregressive process, subsequent tokens follow more
constrained distributions and are easier to sample. To intuitively explain, if
a model has generated part of a dog, the remaining tokens must complete the dog
and thus are more constrained. Empirical evidence supports our motivation: at
later generation stages, the next tokens can be well predicted by a multilayer
perceptron, exhibit low variance, and follow closer-to-straight-line denoising
paths from noise to tokens. Based on our finding, we introduce diffusion step
annealing (DiSA), a training-free method which gradually uses fewer diffusion
steps as more tokens are generated, e.g., using 50 steps at the beginning and
gradually decreasing to 5 steps at later stages. Because DiSA is derived from
our finding specific to diffusion in autoregressive models, it is complementary
to existing acceleration methods designed for diffusion alone. DiSA can be
implemented in only a few lines of code on existing models, and albeit simple,
achieves 5-10times faster inference for MAR and Harmon and 1.4-2.5times
for FlowAR and xAR, while maintaining the generation quality.Summary
AI-Generated Summary