VOCABTRIM: Poda de Vocabulario para Decodificación Especulativa Eficiente en Modelos de Lenguaje de Gran Escala
VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs
June 28, 2025
Autores: Raghavv Goel, Sudhanshu Agrawal, Mukul Gagrani, Junyoung Park, Yifan Zao, He Zhang, Tian Liu, Yiping Yang, Xin Yuan, Jiuyan Lu, Chris Lott, Mingu Lee
cs.AI
Resumen
En este artículo, presentamos una técnica simple y sin necesidad de entrenamiento para mejorar el rendimiento de los métodos de decodificación especulativa (SpD) basados en modelos de borrador (drafter) que incorporan una cabecera de modelado del lenguaje (LM head) durante el proceso de generación de borradores. La decodificación especulativa basada en modelos de borrador aprovecha uno o más modelos de lenguaje más pequeños, conocidos como drafters o modelos de borrador, para muestrear una secuencia o árbol de borrador compuesto por múltiples tokens, seguido de una verificación por parte de un modelo base de lenguaje grande (LLM), el modelo objetivo, que acepta un subconjunto como su generación válida. Dado que generalmente se considera que la decodificación especulativa requiere una correspondencia uno a uno entre los vocabularios del modelo objetivo y el modelo de borrador, ha sido natural compartir el vocabulario entre ellos, o incluso compartir la LM head, como en EAGLE o Medusa. Primero identificamos que este esquema de muestreo de tokens de borrador contiene inherentemente una sobrecarga de inferencia innecesaria en la generación de borradores, especialmente para algunos LLMs objetivo con vocabularios muy grandes. Luego, proponemos una técnica simple, VocabTrim, para mitigar la sobrecarga en la generación de borradores y mejorar la velocidad de generación en entornos limitados por memoria. VocabTrim reconstruye la LM head del modelo de borrador para contener solo un conjunto limitado de tokens, seleccionados entre los más frecuentemente muestreados del vocabulario del modelo objetivo. Si bien limitar el vocabulario en la generación de borradores degrada ligeramente la tasa de aceptación, reduce significativamente la latencia en el proceso limitado por memoria, lo que es común en dispositivos de borde, lo que resulta en una mayor aceleración en entornos limitados por memoria (MBSU). Demostramos que nuestro método puede aumentar la aceleración en entornos limitados por memoria para los modelos Llama-3 en Spec-Bench, específicamente en un 16% para Llama-3.2-3B-Instruct.
English
In this paper, we introduce a simple training-free technique to improve the
performance of drafter-based speculative decoding (SpD) methods that
incorporates language modeling head (LM head) during drafting process. A
drafter-based speculative decoding leverages one or more smaller language
models, a.k.a. drafters or draft models, to sample a draft sequence or tree
consisting of multiple tokens, followed by verification by a base LLM, a target
model, accepting a subset as its valid generation. As it is usually considered
that the speculative decoding requires one-to-one mapping between vocabularies
of the target model and the draft model, it has been natural to share the
vocabulary between them, or even share the LM head as in EAGLE or Medusa. We
first identify that this draft token sampling scheme inherently contains an
unnecessary inference overhead in drafting, especially for some target LLMs
with very large vocabularies. Then, we propose a simple technique, VocabTrim,
to mitigate the drafting overhead to improve the generation speed in
memory-bound environment. VocabTrim reconstructs the drafter LM head to contain
only a limited set of tokens, selected by the most frequently sampled from the
vocabulary of the target model. While limiting the vocabulary in drafting
slightly degrades the acceptance rate, it significantly reduces the drafting
latency in memory-bound process which is often the case on edge devices,
resulting in higher memory-bound speed up (MBSU). We show that our method can
boost the memory-bound speed-up for Llama-3 models on Spec-Bench, specifically
by 16% for Llama-3.2-3B-Instruct.