DiSA: Diffusiestap-annealing in autoregressieve beeldgeneratie
DiSA: Diffusion Step Annealing in Autoregressive Image Generation
May 26, 2025
Auteurs: Qinyu Zhao, Jaskirat Singh, Ming Xu, Akshay Asthana, Stephen Gould, Liang Zheng
cs.AI
Samenvatting
Een groeiend aantal autoregressieve modellen, zoals MAR, FlowAR, xAR en Harmon, neemt diffusie-sampling over om de kwaliteit van beeldgeneratie te verbeteren. Deze strategie leidt echter tot een lage inferentie-efficiëntie, omdat het meestal 50 tot 100 stappen kost om een token te bemonsteren via diffusie. Dit artikel onderzoekt hoe dit probleem effectief kan worden aangepakt. Onze belangrijkste motivatie is dat naarmate er meer tokens worden gegenereerd tijdens het autoregressieve proces, de daaropvolgende tokens meer beperkte verdelingen volgen en gemakkelijker te bemonsteren zijn. Om dit intuïtief uit te leggen: als een model een deel van een hond heeft gegenereerd, moeten de resterende tokens de hond completeren en zijn dus meer beperkt. Empirisch bewijs ondersteunt onze motivatie: in latere generatiefasen kunnen de volgende tokens goed worden voorspeld door een multilayer perceptron, vertonen ze een lage variantie en volgen ze denoiseringspaden die dichter bij een rechte lijn liggen, van ruis naar tokens. Op basis van onze bevinding introduceren we diffusie-stap-annealing (DiSA), een trainingsvrije methode die geleidelijk minder diffusiestappen gebruikt naarmate er meer tokens worden gegenereerd, bijvoorbeeld door 50 stappen aan het begin te gebruiken en geleidelijk af te nemen tot 5 stappen in latere fasen. Omdat DiSA is afgeleid van onze bevinding die specifiek is voor diffusie in autoregressieve modellen, is het complementair aan bestaande versnellingsmethoden die alleen voor diffusie zijn ontworpen. DiSA kan worden geïmplementeerd in slechts een paar regels code op bestaande modellen, en hoewel eenvoudig, bereikt het 5-10 keer snellere inferentie voor MAR en Harmon en 1,4-2,5 keer voor FlowAR en xAR, terwijl de generatiekwaliteit behouden blijft.
English
An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and
Harmon adopt diffusion sampling to improve the quality of image generation.
However, this strategy leads to low inference efficiency, because it usually
takes 50 to 100 steps for diffusion to sample a token. This paper explores how
to effectively address this issue. Our key motivation is that as more tokens
are generated during the autoregressive process, subsequent tokens follow more
constrained distributions and are easier to sample. To intuitively explain, if
a model has generated part of a dog, the remaining tokens must complete the dog
and thus are more constrained. Empirical evidence supports our motivation: at
later generation stages, the next tokens can be well predicted by a multilayer
perceptron, exhibit low variance, and follow closer-to-straight-line denoising
paths from noise to tokens. Based on our finding, we introduce diffusion step
annealing (DiSA), a training-free method which gradually uses fewer diffusion
steps as more tokens are generated, e.g., using 50 steps at the beginning and
gradually decreasing to 5 steps at later stages. Because DiSA is derived from
our finding specific to diffusion in autoregressive models, it is complementary
to existing acceleration methods designed for diffusion alone. DiSA can be
implemented in only a few lines of code on existing models, and albeit simple,
achieves 5-10times faster inference for MAR and Harmon and 1.4-2.5times
for FlowAR and xAR, while maintaining the generation quality.