ChatPaper.aiChatPaper

DiSA: Acalentamiento de Pasos de Difusión en la Generación Autoregresiva de Imágenes

DiSA: Diffusion Step Annealing in Autoregressive Image Generation

May 26, 2025
Autores: Qinyu Zhao, Jaskirat Singh, Ming Xu, Akshay Asthana, Stephen Gould, Liang Zheng
cs.AI

Resumen

Un número creciente de modelos autorregresivos, como MAR, FlowAR, xAR y Harmon, adoptan el muestreo por difusión para mejorar la calidad de la generación de imágenes. Sin embargo, esta estrategia conduce a una baja eficiencia en la inferencia, ya que generalmente se requieren de 50 a 100 pasos de difusión para muestrear un token. Este artículo explora cómo abordar efectivamente este problema. Nuestra motivación clave es que, a medida que se generan más tokens durante el proceso autorregresivo, los tokens subsiguientes siguen distribuciones más restringidas y son más fáciles de muestrear. Para explicarlo de manera intuitiva, si un modelo ha generado parte de un perro, los tokens restantes deben completar el perro y, por lo tanto, están más limitados. La evidencia empírica respalda nuestra motivación: en las etapas posteriores de la generación, los siguientes tokens pueden ser bien predichos por un perceptrón multicapa, exhiben una baja varianza y siguen trayectorias de eliminación de ruido más cercanas a una línea recta, desde el ruido hasta los tokens. Basándonos en este hallazgo, introducimos el annealing de pasos de difusión (DiSA), un método que no requiere entrenamiento y que utiliza gradualmente menos pasos de difusión a medida que se generan más tokens, por ejemplo, usando 50 pasos al principio y disminuyendo gradualmente a 5 pasos en las etapas posteriores. Dado que DiSA se deriva de nuestro hallazgo específico sobre la difusión en modelos autorregresivos, es complementario a los métodos de aceleración existentes diseñados únicamente para la difusión. DiSA puede implementarse con solo unas pocas líneas de código en los modelos existentes y, aunque simple, logra una inferencia de 5 a 10 veces más rápida para MAR y Harmon, y de 1.4 a 2.5 veces más rápida para FlowAR y xAR, manteniendo la calidad de la generación.
English
An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and Harmon adopt diffusion sampling to improve the quality of image generation. However, this strategy leads to low inference efficiency, because it usually takes 50 to 100 steps for diffusion to sample a token. This paper explores how to effectively address this issue. Our key motivation is that as more tokens are generated during the autoregressive process, subsequent tokens follow more constrained distributions and are easier to sample. To intuitively explain, if a model has generated part of a dog, the remaining tokens must complete the dog and thus are more constrained. Empirical evidence supports our motivation: at later generation stages, the next tokens can be well predicted by a multilayer perceptron, exhibit low variance, and follow closer-to-straight-line denoising paths from noise to tokens. Based on our finding, we introduce diffusion step annealing (DiSA), a training-free method which gradually uses fewer diffusion steps as more tokens are generated, e.g., using 50 steps at the beginning and gradually decreasing to 5 steps at later stages. Because DiSA is derived from our finding specific to diffusion in autoregressive models, it is complementary to existing acceleration methods designed for diffusion alone. DiSA can be implemented in only a few lines of code on existing models, and albeit simple, achieves 5-10times faster inference for MAR and Harmon and 1.4-2.5times for FlowAR and xAR, while maintaining the generation quality.

Summary

AI-Generated Summary

PDF21May 27, 2025