ChatPaper.aiChatPaper

Decodificación Especulativa Continua para la Generación de Imágenes Autoregresivas

Continuous Speculative Decoding for Autoregressive Image Generation

November 18, 2024
Autores: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang
cs.AI

Resumen

Los modelos de generación de imágenes autorregresivos (AR) de valores continuos han demostrado una notable superioridad sobre sus contrapartes de tokens discretos, exhibiendo una considerable calidad de reconstrucción y una mayor fidelidad en la generación. Sin embargo, las demandas computacionales del marco autorregresivo resultan en una sobrecarga significativa en la inferencia. Si bien la decodificación especulativa ha demostrado ser efectiva para acelerar los Modelos de Lenguaje Grandes (LLMs), su adaptación a los modelos autorregresivos visuales de valores continuos permanece inexplorada. Este trabajo generaliza el algoritmo de decodificación especulativa desde tokens discretos al espacio continuo. Al analizar las propiedades intrínsecas de la distribución de salida, establecemos un criterio de aceptación personalizado para las distribuciones de difusión predominantes en tales modelos. Para superar la inconsistencia que ocurrió en las distribuciones de salida de la decodificación especulativa, introducimos métodos de alineación de trayectorias de desruido y prellenado de tokens. Además, identificamos la distribución difícil de muestrear en la fase de rechazo. Para mitigar este problema, proponemos un meticuloso método de muestreo de aceptación-rechazo con un límite superior adecuado, evitando así una integración compleja. Los resultados experimentales muestran que nuestra decodificación especulativa continua logra una notable aceleración de 2.33 veces en modelos listos para usar, manteniendo la distribución de salida. Los códigos estarán disponibles en https://github.com/MarkXCloud/CSpD
English
Continuous-valued Autoregressive (AR) image generation models have demonstrated notable superiority over their discrete-token counterparts, showcasing considerable reconstruction quality and higher generation fidelity. However, the computational demands of the autoregressive framework result in significant inference overhead. While speculative decoding has proven effective in accelerating Large Language Models (LLMs), their adaptation to continuous-valued visual autoregressive models remains unexplored. This work generalizes the speculative decoding algorithm from discrete tokens to continuous space. By analyzing the intrinsic properties of output distribution, we establish a tailored acceptance criterion for the diffusion distributions prevalent in such models. To overcome the inconsistency that occurred in speculative decoding output distributions, we introduce denoising trajectory alignment and token pre-filling methods. Additionally, we identify the hard-to-sample distribution in the rejection phase. To mitigate this issue, we propose a meticulous acceptance-rejection sampling method with a proper upper bound, thereby circumventing complex integration. Experimental results show that our continuous speculative decoding achieves a remarkable 2.33times speed-up on off-the-shelf models while maintaining the output distribution. Codes will be available at https://github.com/MarkXCloud/CSpD

Summary

AI-Generated Summary

PDF163November 20, 2024