Cascada de Borradores Especulativos para una Inferencia de LLM Aún Más Rápida
Cascade Speculative Drafting for Even Faster LLM Inference
December 18, 2023
Autores: Ziyi Chen, Xiaocong Yang, Jiacheng Lin, Chenkai Sun, Jie Huang, Kevin Chen-Chuan Chang
cs.AI
Resumen
La decodificación especulativa mejora la eficiencia de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) al utilizar un modelo de borrador para generar propuestas que luego son revisadas por un modelo objetivo más grande. Sin embargo, la generación de borradores en la decodificación especulativa implica una generación autoregresiva lenta y la asignación del mismo tiempo para generar tokens de diferente importancia. Estas dos ineficiencias resultan en un rendimiento subóptimo. Para abordar este problema, presentamos la Decodificación Especulativa en Cascada (CS. Drafting, por sus siglas en inglés), un enfoque novedoso que emplea dos tipos de cascadas. La Cascada Vertical elimina la generación autoregresiva de los modelos neuronales. La Cascada Horizontal establece una asignación eficiente del tiempo en la generación de borradores, con su optimalidad respaldada por nuestro análisis teórico. Al combinar ambas cascadas, nuestro algoritmo CS. Drafting ha logrado un aumento de velocidad de hasta un 72 % adicional en comparación con la decodificación especulativa en nuestros experimentos, manteniendo la misma distribución de salida.
English
Speculative decoding enhances the efficiency of large language models (LLMs)
by leveraging a draft model to draft for a larger target model to review.
However, drafting in speculative decoding involves slow autoregressive
generation and generating tokens of different importance with the same time
allocation. These two inefficiencies lead to its suboptimal performance. To
address this issue, we introduce Cascade Speculative Drafting (CS. Drafting), a
novel approach that employs two types of cascades. The Vertical Cascade
eliminates autoregressive generation from neural models. The Horizontal Cascade
constitutes efficient time allocation in drafting with its optimality supported
by our theoretical analysis. Combining both cascades, our CS. Drafting
algorithm has achieved up to 72 percent additional speedup over speculative
decoding in our experiments while keeping the same output distribution.