ChatPaper.aiChatPaper

DiSA: Diffusionsschritt-Temperung in der autoregressiven Bildgenerierung

DiSA: Diffusion Step Annealing in Autoregressive Image Generation

May 26, 2025
Autoren: Qinyu Zhao, Jaskirat Singh, Ming Xu, Akshay Asthana, Stephen Gould, Liang Zheng
cs.AI

Zusammenfassung

Eine zunehmende Anzahl von autoregressiven Modellen, wie MAR, FlowAR, xAR und Harmon, setzen Diffusionssampling ein, um die Qualität der Bildgenerierung zu verbessern. Diese Strategie führt jedoch zu einer geringen Inferenzeffizienz, da es in der Regel 50 bis 100 Schritte erfordert, um ein Token durch Diffusion zu sampeln. In diesem Artikel wird untersucht, wie dieses Problem effektiv gelöst werden kann. Unsere zentrale Motivation besteht darin, dass, je mehr Token während des autoregressiven Prozesses generiert werden, die nachfolgenden Token stärker eingeschränkten Verteilungen folgen und somit leichter zu sampeln sind. Um dies intuitiv zu erklären: Wenn ein Modell einen Teil eines Hundes generiert hat, müssen die verbleibenden Token den Hund vervollständigen und sind daher stärker eingeschränkt. Empirische Belege stützen unsere Motivation: In späteren Generierungsphasen können die nächsten Token gut durch ein mehrschichtiges Perzeptron vorhergesagt werden, weisen eine geringe Varianz auf und folgen geradlinigeren Denoising-Pfaden von Rauschen zu Token. Basierend auf dieser Erkenntnis führen wir Diffusionsschritt-Annealing (DiSA) ein, eine trainingsfreie Methode, die schrittweise weniger Diffusionsschritte verwendet, je mehr Token generiert werden, z. B. 50 Schritte am Anfang und eine schrittweise Reduzierung auf 5 Schritte in späteren Phasen. Da DiSA aus unserer spezifischen Erkenntnis zur Diffusion in autoregressiven Modellen abgeleitet ist, ergänzt es bestehende Beschleunigungsmethoden, die ausschließlich für Diffusion entwickelt wurden. DiSA kann mit nur wenigen Codezeilen in bestehenden Modellen implementiert werden und erreicht, obwohl einfach, eine 5-10-fach schnellere Inferenz für MAR und Harmon sowie eine 1,4-2,5-fach schnellere Inferenz für FlowAR und xAR, bei gleichbleibender Generierungsqualität.
English
An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and Harmon adopt diffusion sampling to improve the quality of image generation. However, this strategy leads to low inference efficiency, because it usually takes 50 to 100 steps for diffusion to sample a token. This paper explores how to effectively address this issue. Our key motivation is that as more tokens are generated during the autoregressive process, subsequent tokens follow more constrained distributions and are easier to sample. To intuitively explain, if a model has generated part of a dog, the remaining tokens must complete the dog and thus are more constrained. Empirical evidence supports our motivation: at later generation stages, the next tokens can be well predicted by a multilayer perceptron, exhibit low variance, and follow closer-to-straight-line denoising paths from noise to tokens. Based on our finding, we introduce diffusion step annealing (DiSA), a training-free method which gradually uses fewer diffusion steps as more tokens are generated, e.g., using 50 steps at the beginning and gradually decreasing to 5 steps at later stages. Because DiSA is derived from our finding specific to diffusion in autoregressive models, it is complementary to existing acceleration methods designed for diffusion alone. DiSA can be implemented in only a few lines of code on existing models, and albeit simple, achieves 5-10times faster inference for MAR and Harmon and 1.4-2.5times for FlowAR and xAR, while maintaining the generation quality.

Summary

AI-Generated Summary

PDF21May 27, 2025