Непрерывное спекулятивное декодирование для авторегрессивной генерации изображений
Continuous Speculative Decoding for Autoregressive Image Generation
November 18, 2024
Авторы: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang
cs.AI
Аннотация
Модели генерации изображений с авторегрессией по непрерывным значениям (AR) продемонстрировали значительное превосходство над своими дискретными аналогами, обладая значительным качеством восстановления и более высокой достоверностью генерации. Однако вычислительные требования авторегрессионной структуры приводят к значительным накладным расходам при выводе. В то время как спекулятивное декодирование доказало свою эффективность в ускорении крупных языковых моделей (LLM), их адаптация к непрерывным визуальным авторегрессионным моделям остается неизученной. В данной работе обобщается алгоритм спекулятивного декодирования от дискретных токенов к непрерывному пространству. Анализируя внутренние свойства распределения вывода, мы устанавливаем настраиваемый критерий принятия для диффузионных распределений, характерных для таких моделей. Для преодоления несогласованности, возникшей в распределениях вывода спекулятивного декодирования, мы предлагаем методы выравнивания траектории денойзинга и предварительного заполнения токенов. Кроме того, мы выявляем распределение, сложное для выборки, в фазе отклонения. Для уменьшения этой проблемы мы предлагаем тщательный метод выборки с принятием и отклонением с соответствующей верхней границей, тем самым обходя сложные интеграции. Экспериментальные результаты показывают, что наше непрерывное спекулятивное декодирование обеспечивает замечательное ускорение в 2,33 раза на моделях «из коробки», сохраняя при этом распределение вывода. Коды будут доступны по адресу https://github.com/MarkXCloud/CSpD
English
Continuous-valued Autoregressive (AR) image generation models have
demonstrated notable superiority over their discrete-token counterparts,
showcasing considerable reconstruction quality and higher generation fidelity.
However, the computational demands of the autoregressive framework result in
significant inference overhead. While speculative decoding has proven effective
in accelerating Large Language Models (LLMs), their adaptation to
continuous-valued visual autoregressive models remains unexplored. This work
generalizes the speculative decoding algorithm from discrete tokens to
continuous space. By analyzing the intrinsic properties of output distribution,
we establish a tailored acceptance criterion for the diffusion distributions
prevalent in such models. To overcome the inconsistency that occurred in
speculative decoding output distributions, we introduce denoising trajectory
alignment and token pre-filling methods. Additionally, we identify the
hard-to-sample distribution in the rejection phase. To mitigate this issue, we
propose a meticulous acceptance-rejection sampling method with a proper upper
bound, thereby circumventing complex integration. Experimental results show
that our continuous speculative decoding achieves a remarkable 2.33times
speed-up on off-the-shelf models while maintaining the output distribution.
Codes will be available at https://github.com/MarkXCloud/CSpDSummary
AI-Generated Summary