DiSA: Постепенное затухание шага диффузии в авторегрессивной генерации изображений
DiSA: Diffusion Step Annealing in Autoregressive Image Generation
May 26, 2025
Авторы: Qinyu Zhao, Jaskirat Singh, Ming Xu, Akshay Asthana, Stephen Gould, Liang Zheng
cs.AI
Аннотация
Растущее число авторегрессионных моделей, таких как MAR, FlowAR, xAR и Harmon, используют диффузионную выборку для повышения качества генерации изображений. Однако этот подход приводит к низкой эффективности вывода, поскольку для выборки токена обычно требуется от 50 до 100 шагов диффузии. В данной статье исследуется, как эффективно решить эту проблему. Наша ключевая идея заключается в том, что по мере генерации большего числа токенов в авторегрессионном процессе последующие токены следуют более ограниченным распределениям и их выборка становится проще. Для интуитивного объяснения: если модель сгенерировала часть изображения собаки, оставшиеся токены должны завершить изображение собаки и, следовательно, более ограничены. Эмпирические данные подтверждают нашу гипотезу: на поздних этапах генерации следующие токены могут быть хорошо предсказаны с помощью многослойного перцептрона, демонстрируют низкую дисперсию и следуют более прямолинейным траекториям денизинга от шума к токенам. На основе этого открытия мы представляем метод аннелинга шагов диффузии (DiSA), который не требует обучения и постепенно использует меньше шагов диффузии по мере генерации большего числа токенов, например, начиная с 50 шагов и постепенно уменьшая их до 5 на поздних этапах. Поскольку DiSA основан на нашем открытии, специфичном для диффузии в авторегрессионных моделях, он дополняет существующие методы ускорения, разработанные исключительно для диффузии. DiSA может быть реализован всего несколькими строками кода в существующих моделях и, несмотря на свою простоту, обеспечивает ускорение вывода в 5–10 раз для MAR и Harmon и в 1,4–2,5 раза для FlowAR и xAR, сохраняя при этом качество генерации.
English
An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and
Harmon adopt diffusion sampling to improve the quality of image generation.
However, this strategy leads to low inference efficiency, because it usually
takes 50 to 100 steps for diffusion to sample a token. This paper explores how
to effectively address this issue. Our key motivation is that as more tokens
are generated during the autoregressive process, subsequent tokens follow more
constrained distributions and are easier to sample. To intuitively explain, if
a model has generated part of a dog, the remaining tokens must complete the dog
and thus are more constrained. Empirical evidence supports our motivation: at
later generation stages, the next tokens can be well predicted by a multilayer
perceptron, exhibit low variance, and follow closer-to-straight-line denoising
paths from noise to tokens. Based on our finding, we introduce diffusion step
annealing (DiSA), a training-free method which gradually uses fewer diffusion
steps as more tokens are generated, e.g., using 50 steps at the beginning and
gradually decreasing to 5 steps at later stages. Because DiSA is derived from
our finding specific to diffusion in autoregressive models, it is complementary
to existing acceleration methods designed for diffusion alone. DiSA can be
implemented in only a few lines of code on existing models, and albeit simple,
achieves 5-10times faster inference for MAR and Harmon and 1.4-2.5times
for FlowAR and xAR, while maintaining the generation quality.Summary
AI-Generated Summary