Decodificação Especulativa Contínua para Geração de Imagens Autoregressivas
Continuous Speculative Decoding for Autoregressive Image Generation
November 18, 2024
Autores: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang
cs.AI
Resumo
Modelos de geração de imagens autoregressivos de valores contínuos (AR) têm demonstrado notável superioridade sobre seus equivalentes de tokens discretos, exibindo considerável qualidade de reconstrução e maior fidelidade na geração. No entanto, as demandas computacionais do framework autoregressivo resultam em significativa sobrecarga de inferência. Enquanto a decodificação especulativa tem se mostrado eficaz na aceleração de Modelos de Linguagem Grandes (LLMs), sua adaptação para modelos visuais autoregressivos de valores contínuos permanece inexplorada. Este trabalho generaliza o algoritmo de decodificação especulativa de tokens discretos para o espaço contínuo. Ao analisar as propriedades intrínsecas da distribuição de saída, estabelecemos um critério de aceitação adaptado para as distribuições de difusão prevalentes nesses modelos. Para superar a inconsistência que ocorreu nas distribuições de saída da decodificação especulativa, introduzimos métodos de alinhamento de trajetória de denoização e pré-preenchimento de tokens. Além disso, identificamos a distribuição difícil de amostrar na fase de rejeição. Para mitigar esse problema, propomos um meticuloso método de amostragem de aceitação-rejeição com um limite superior apropriado, contornando assim integrações complexas. Resultados experimentais mostram que nossa decodificação especulativa contínua alcança uma notável aceleração de 2,33 vezes em modelos prontos para uso, mantendo a distribuição de saída. Os códigos estarão disponíveis em https://github.com/MarkXCloud/CSpD
English
Continuous-valued Autoregressive (AR) image generation models have
demonstrated notable superiority over their discrete-token counterparts,
showcasing considerable reconstruction quality and higher generation fidelity.
However, the computational demands of the autoregressive framework result in
significant inference overhead. While speculative decoding has proven effective
in accelerating Large Language Models (LLMs), their adaptation to
continuous-valued visual autoregressive models remains unexplored. This work
generalizes the speculative decoding algorithm from discrete tokens to
continuous space. By analyzing the intrinsic properties of output distribution,
we establish a tailored acceptance criterion for the diffusion distributions
prevalent in such models. To overcome the inconsistency that occurred in
speculative decoding output distributions, we introduce denoising trajectory
alignment and token pre-filling methods. Additionally, we identify the
hard-to-sample distribution in the rejection phase. To mitigate this issue, we
propose a meticulous acceptance-rejection sampling method with a proper upper
bound, thereby circumventing complex integration. Experimental results show
that our continuous speculative decoding achieves a remarkable 2.33times
speed-up on off-the-shelf models while maintaining the output distribution.
Codes will be available at https://github.com/MarkXCloud/CSpDSummary
AI-Generated Summary