Непрерывное спекулятивное декодирование для авторегрессивной генерации изображений

Аннотация

Модели генерации изображений с авторегрессией по непрерывным значениям (AR) продемонстрировали значительное превосходство над своими дискретными аналогами, обладая значительным качеством восстановления и более высокой достоверностью генерации. Однако вычислительные требования авторегрессионной структуры приводят к значительным накладным расходам при выводе. В то время как спекулятивное декодирование доказало свою эффективность в ускорении крупных языковых моделей (LLM), их адаптация к непрерывным визуальным авторегрессионным моделям остается неизученной. В данной работе обобщается алгоритм спекулятивного декодирования от дискретных токенов к непрерывному пространству. Анализируя внутренние свойства распределения вывода, мы устанавливаем настраиваемый критерий принятия для диффузионных распределений, характерных для таких моделей. Для преодоления несогласованности, возникшей в распределениях вывода спекулятивного декодирования, мы предлагаем методы выравнивания траектории денойзинга и предварительного заполнения токенов. Кроме того, мы выявляем распределение, сложное для выборки, в фазе отклонения. Для уменьшения этой проблемы мы предлагаем тщательный метод выборки с принятием и отклонением с соответствующей верхней границей, тем самым обходя сложные интеграции. Экспериментальные результаты показывают, что наше непрерывное спекулятивное декодирование обеспечивает замечательное ускорение в 2,33 раза на моделях «из коробки», сохраняя при этом распределение вывода. Коды будут доступны по адресу https://github.com/MarkXCloud/CSpD

English

Continuous-valued Autoregressive (AR) image generation models have demonstrated notable superiority over their discrete-token counterparts, showcasing considerable reconstruction quality and higher generation fidelity. However, the computational demands of the autoregressive framework result in significant inference overhead. While speculative decoding has proven effective in accelerating Large Language Models (LLMs), their adaptation to continuous-valued visual autoregressive models remains unexplored. This work generalizes the speculative decoding algorithm from discrete tokens to continuous space. By analyzing the intrinsic properties of output distribution, we establish a tailored acceptance criterion for the diffusion distributions prevalent in such models. To overcome the inconsistency that occurred in speculative decoding output distributions, we introduce denoising trajectory alignment and token pre-filling methods. Additionally, we identify the hard-to-sample distribution in the rejection phase. To mitigate this issue, we propose a meticulous acceptance-rejection sampling method with a proper upper bound, thereby circumventing complex integration. Experimental results show that our continuous speculative decoding achieves a remarkable 2.33times speed-up on off-the-shelf models while maintaining the output distribution. Codes will be available at https://github.com/MarkXCloud/CSpD

Непрерывное спекулятивное декодирование для авторегрессивной генерации изображений

Continuous Speculative Decoding for Autoregressive Image Generation

Аннотация

Support