Decodificação Especulativa Contínua para Geração de Imagens Autoregressivas

Resumo

Modelos de geração de imagens autoregressivos de valores contínuos (AR) têm demonstrado notável superioridade sobre seus equivalentes de tokens discretos, exibindo considerável qualidade de reconstrução e maior fidelidade na geração. No entanto, as demandas computacionais do framework autoregressivo resultam em significativa sobrecarga de inferência. Enquanto a decodificação especulativa tem se mostrado eficaz na aceleração de Modelos de Linguagem Grandes (LLMs), sua adaptação para modelos visuais autoregressivos de valores contínuos permanece inexplorada. Este trabalho generaliza o algoritmo de decodificação especulativa de tokens discretos para o espaço contínuo. Ao analisar as propriedades intrínsecas da distribuição de saída, estabelecemos um critério de aceitação adaptado para as distribuições de difusão prevalentes nesses modelos. Para superar a inconsistência que ocorreu nas distribuições de saída da decodificação especulativa, introduzimos métodos de alinhamento de trajetória de denoização e pré-preenchimento de tokens. Além disso, identificamos a distribuição difícil de amostrar na fase de rejeição. Para mitigar esse problema, propomos um meticuloso método de amostragem de aceitação-rejeição com um limite superior apropriado, contornando assim integrações complexas. Resultados experimentais mostram que nossa decodificação especulativa contínua alcança uma notável aceleração de 2,33 vezes em modelos prontos para uso, mantendo a distribuição de saída. Os códigos estarão disponíveis em https://github.com/MarkXCloud/CSpD

English

Continuous-valued Autoregressive (AR) image generation models have demonstrated notable superiority over their discrete-token counterparts, showcasing considerable reconstruction quality and higher generation fidelity. However, the computational demands of the autoregressive framework result in significant inference overhead. While speculative decoding has proven effective in accelerating Large Language Models (LLMs), their adaptation to continuous-valued visual autoregressive models remains unexplored. This work generalizes the speculative decoding algorithm from discrete tokens to continuous space. By analyzing the intrinsic properties of output distribution, we establish a tailored acceptance criterion for the diffusion distributions prevalent in such models. To overcome the inconsistency that occurred in speculative decoding output distributions, we introduce denoising trajectory alignment and token pre-filling methods. Additionally, we identify the hard-to-sample distribution in the rejection phase. To mitigate this issue, we propose a meticulous acceptance-rejection sampling method with a proper upper bound, thereby circumventing complex integration. Experimental results show that our continuous speculative decoding achieves a remarkable 2.33times speed-up on off-the-shelf models while maintaining the output distribution. Codes will be available at https://github.com/MarkXCloud/CSpD

Decodificação Especulativa Contínua para Geração de Imagens Autoregressivas

Continuous Speculative Decoding for Autoregressive Image Generation

Resumo

Support