DiSA: Diffusiestap-annealing in autoregressieve beeldgeneratie

Samenvatting

Een groeiend aantal autoregressieve modellen, zoals MAR, FlowAR, xAR en Harmon, neemt diffusie-sampling over om de kwaliteit van beeldgeneratie te verbeteren. Deze strategie leidt echter tot een lage inferentie-efficiëntie, omdat het meestal 50 tot 100 stappen kost om een token te bemonsteren via diffusie. Dit artikel onderzoekt hoe dit probleem effectief kan worden aangepakt. Onze belangrijkste motivatie is dat naarmate er meer tokens worden gegenereerd tijdens het autoregressieve proces, de daaropvolgende tokens meer beperkte verdelingen volgen en gemakkelijker te bemonsteren zijn. Om dit intuïtief uit te leggen: als een model een deel van een hond heeft gegenereerd, moeten de resterende tokens de hond completeren en zijn dus meer beperkt. Empirisch bewijs ondersteunt onze motivatie: in latere generatiefasen kunnen de volgende tokens goed worden voorspeld door een multilayer perceptron, vertonen ze een lage variantie en volgen ze denoiseringspaden die dichter bij een rechte lijn liggen, van ruis naar tokens. Op basis van onze bevinding introduceren we diffusie-stap-annealing (DiSA), een trainingsvrije methode die geleidelijk minder diffusiestappen gebruikt naarmate er meer tokens worden gegenereerd, bijvoorbeeld door 50 stappen aan het begin te gebruiken en geleidelijk af te nemen tot 5 stappen in latere fasen. Omdat DiSA is afgeleid van onze bevinding die specifiek is voor diffusie in autoregressieve modellen, is het complementair aan bestaande versnellingsmethoden die alleen voor diffusie zijn ontworpen. DiSA kan worden geïmplementeerd in slechts een paar regels code op bestaande modellen, en hoewel eenvoudig, bereikt het 5-10 keer snellere inferentie voor MAR en Harmon en 1,4-2,5 keer voor FlowAR en xAR, terwijl de generatiekwaliteit behouden blijft.

English

An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and Harmon adopt diffusion sampling to improve the quality of image generation. However, this strategy leads to low inference efficiency, because it usually takes 50 to 100 steps for diffusion to sample a token. This paper explores how to effectively address this issue. Our key motivation is that as more tokens are generated during the autoregressive process, subsequent tokens follow more constrained distributions and are easier to sample. To intuitively explain, if a model has generated part of a dog, the remaining tokens must complete the dog and thus are more constrained. Empirical evidence supports our motivation: at later generation stages, the next tokens can be well predicted by a multilayer perceptron, exhibit low variance, and follow closer-to-straight-line denoising paths from noise to tokens. Based on our finding, we introduce diffusion step annealing (DiSA), a training-free method which gradually uses fewer diffusion steps as more tokens are generated, e.g., using 50 steps at the beginning and gradually decreasing to 5 steps at later stages. Because DiSA is derived from our finding specific to diffusion in autoregressive models, it is complementary to existing acceleration methods designed for diffusion alone. DiSA can be implemented in only a few lines of code on existing models, and albeit simple, achieves 5-10times faster inference for MAR and Harmon and 1.4-2.5times for FlowAR and xAR, while maintaining the generation quality.

DiSA: Diffusiestap-annealing in autoregressieve beeldgeneratie

DiSA: Diffusion Step Annealing in Autoregressive Image Generation

Samenvatting

Support