Decodificación Especulativa Continua para la Generación de Imágenes Autoregresivas
Continuous Speculative Decoding for Autoregressive Image Generation
November 18, 2024
Autores: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang
cs.AI
Resumen
Los modelos de generación de imágenes autorregresivos (AR) de valores continuos han demostrado una notable superioridad sobre sus contrapartes de tokens discretos, exhibiendo una considerable calidad de reconstrucción y una mayor fidelidad en la generación. Sin embargo, las demandas computacionales del marco autorregresivo resultan en una sobrecarga significativa en la inferencia. Si bien la decodificación especulativa ha demostrado ser efectiva para acelerar los Modelos de Lenguaje Grandes (LLMs), su adaptación a los modelos autorregresivos visuales de valores continuos permanece inexplorada. Este trabajo generaliza el algoritmo de decodificación especulativa desde tokens discretos al espacio continuo. Al analizar las propiedades intrínsecas de la distribución de salida, establecemos un criterio de aceptación personalizado para las distribuciones de difusión predominantes en tales modelos. Para superar la inconsistencia que ocurrió en las distribuciones de salida de la decodificación especulativa, introducimos métodos de alineación de trayectorias de desruido y prellenado de tokens. Además, identificamos la distribución difícil de muestrear en la fase de rechazo. Para mitigar este problema, proponemos un meticuloso método de muestreo de aceptación-rechazo con un límite superior adecuado, evitando así una integración compleja. Los resultados experimentales muestran que nuestra decodificación especulativa continua logra una notable aceleración de 2.33 veces en modelos listos para usar, manteniendo la distribución de salida. Los códigos estarán disponibles en https://github.com/MarkXCloud/CSpD
English
Continuous-valued Autoregressive (AR) image generation models have
demonstrated notable superiority over their discrete-token counterparts,
showcasing considerable reconstruction quality and higher generation fidelity.
However, the computational demands of the autoregressive framework result in
significant inference overhead. While speculative decoding has proven effective
in accelerating Large Language Models (LLMs), their adaptation to
continuous-valued visual autoregressive models remains unexplored. This work
generalizes the speculative decoding algorithm from discrete tokens to
continuous space. By analyzing the intrinsic properties of output distribution,
we establish a tailored acceptance criterion for the diffusion distributions
prevalent in such models. To overcome the inconsistency that occurred in
speculative decoding output distributions, we introduce denoising trajectory
alignment and token pre-filling methods. Additionally, we identify the
hard-to-sample distribution in the rejection phase. To mitigate this issue, we
propose a meticulous acceptance-rejection sampling method with a proper upper
bound, thereby circumventing complex integration. Experimental results show
that our continuous speculative decoding achieves a remarkable 2.33times
speed-up on off-the-shelf models while maintaining the output distribution.
Codes will be available at https://github.com/MarkXCloud/CSpDSummary
AI-Generated Summary