ChatPaper.aiChatPaper

DiSA: Anelamento de Passos de Difusão na Geração Autoregressiva de Imagens

DiSA: Diffusion Step Annealing in Autoregressive Image Generation

May 26, 2025
Autores: Qinyu Zhao, Jaskirat Singh, Ming Xu, Akshay Asthana, Stephen Gould, Liang Zheng
cs.AI

Resumo

Um número crescente de modelos autoregressivos, como MAR, FlowAR, xAR e Harmon, adotam a amostragem por difusão para melhorar a qualidade da geração de imagens. No entanto, essa estratégia resulta em baixa eficiência de inferência, pois geralmente são necessários de 50 a 100 passos para que a difusão amostre um token. Este artigo explora como abordar efetivamente esse problema. Nossa principal motivação é que, à medida que mais tokens são gerados durante o processo autoregressivo, os tokens subsequentes seguem distribuições mais restritas e são mais fáceis de amostrar. Para explicar de forma intuitiva, se um modelo gerou parte de um cachorro, os tokens restantes devem completar o cachorro e, portanto, são mais restritos. Evidências empíricas apoiam nossa motivação: nos estágios posteriores da geração, os próximos tokens podem ser bem previstos por um perceptron multicamadas, exibem baixa variância e seguem caminhos de remoção de ruído mais próximos de uma linha reta, do ruído ao token. Com base em nossa descoberta, introduzimos o annealing de passos de difusão (DiSA), um método sem necessidade de treinamento que gradualmente usa menos passos de difusão à medida que mais tokens são gerados, por exemplo, usando 50 passos no início e diminuindo gradualmente para 5 passos nos estágios posteriores. Como o DiSA é derivado de nossa descoberta específica para difusão em modelos autoregressivos, ele é complementar aos métodos de aceleração existentes projetados apenas para difusão. O DiSA pode ser implementado com apenas algumas linhas de código em modelos existentes e, embora simples, alcança uma inferência 5 a 10 vezes mais rápida para MAR e Harmon e 1,4 a 2,5 vezes mais rápida para FlowAR e xAR, mantendo a qualidade da geração.
English
An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and Harmon adopt diffusion sampling to improve the quality of image generation. However, this strategy leads to low inference efficiency, because it usually takes 50 to 100 steps for diffusion to sample a token. This paper explores how to effectively address this issue. Our key motivation is that as more tokens are generated during the autoregressive process, subsequent tokens follow more constrained distributions and are easier to sample. To intuitively explain, if a model has generated part of a dog, the remaining tokens must complete the dog and thus are more constrained. Empirical evidence supports our motivation: at later generation stages, the next tokens can be well predicted by a multilayer perceptron, exhibit low variance, and follow closer-to-straight-line denoising paths from noise to tokens. Based on our finding, we introduce diffusion step annealing (DiSA), a training-free method which gradually uses fewer diffusion steps as more tokens are generated, e.g., using 50 steps at the beginning and gradually decreasing to 5 steps at later stages. Because DiSA is derived from our finding specific to diffusion in autoregressive models, it is complementary to existing acceleration methods designed for diffusion alone. DiSA can be implemented in only a few lines of code on existing models, and albeit simple, achieves 5-10times faster inference for MAR and Harmon and 1.4-2.5times for FlowAR and xAR, while maintaining the generation quality.
PDF21December 16, 2025