VOCABTRIM: Poda de Vocabulario para Decodificación Especulativa Eficiente en Modelos de Lenguaje de Gran Escala

Resumen

En este artículo, presentamos una técnica simple y sin necesidad de entrenamiento para mejorar el rendimiento de los métodos de decodificación especulativa (SpD) basados en modelos de borrador (drafter) que incorporan una cabecera de modelado del lenguaje (LM head) durante el proceso de generación de borradores. La decodificación especulativa basada en modelos de borrador aprovecha uno o más modelos de lenguaje más pequeños, conocidos como drafters o modelos de borrador, para muestrear una secuencia o árbol de borrador compuesto por múltiples tokens, seguido de una verificación por parte de un modelo base de lenguaje grande (LLM), el modelo objetivo, que acepta un subconjunto como su generación válida. Dado que generalmente se considera que la decodificación especulativa requiere una correspondencia uno a uno entre los vocabularios del modelo objetivo y el modelo de borrador, ha sido natural compartir el vocabulario entre ellos, o incluso compartir la LM head, como en EAGLE o Medusa. Primero identificamos que este esquema de muestreo de tokens de borrador contiene inherentemente una sobrecarga de inferencia innecesaria en la generación de borradores, especialmente para algunos LLMs objetivo con vocabularios muy grandes. Luego, proponemos una técnica simple, VocabTrim, para mitigar la sobrecarga en la generación de borradores y mejorar la velocidad de generación en entornos limitados por memoria. VocabTrim reconstruye la LM head del modelo de borrador para contener solo un conjunto limitado de tokens, seleccionados entre los más frecuentemente muestreados del vocabulario del modelo objetivo. Si bien limitar el vocabulario en la generación de borradores degrada ligeramente la tasa de aceptación, reduce significativamente la latencia en el proceso limitado por memoria, lo que es común en dispositivos de borde, lo que resulta en una mayor aceleración en entornos limitados por memoria (MBSU). Demostramos que nuestro método puede aumentar la aceleración en entornos limitados por memoria para los modelos Llama-3 en Spec-Bench, específicamente en un 16% para Llama-3.2-3B-Instruct.

English

In this paper, we introduce a simple training-free technique to improve the performance of drafter-based speculative decoding (SpD) methods that incorporates language modeling head (LM head) during drafting process. A drafter-based speculative decoding leverages one or more smaller language models, a.k.a. drafters or draft models, to sample a draft sequence or tree consisting of multiple tokens, followed by verification by a base LLM, a target model, accepting a subset as its valid generation. As it is usually considered that the speculative decoding requires one-to-one mapping between vocabularies of the target model and the draft model, it has been natural to share the vocabulary between them, or even share the LM head as in EAGLE or Medusa. We first identify that this draft token sampling scheme inherently contains an unnecessary inference overhead in drafting, especially for some target LLMs with very large vocabularies. Then, we propose a simple technique, VocabTrim, to mitigate the drafting overhead to improve the generation speed in memory-bound environment. VocabTrim reconstructs the drafter LM head to contain only a limited set of tokens, selected by the most frequently sampled from the vocabulary of the target model. While limiting the vocabulary in drafting slightly degrades the acceptance rate, it significantly reduces the drafting latency in memory-bound process which is often the case on edge devices, resulting in higher memory-bound speed up (MBSU). We show that our method can boost the memory-bound speed-up for Llama-3 models on Spec-Bench, specifically by 16% for Llama-3.2-3B-Instruct.

VOCABTRIM: Poda de Vocabulario para Decodificación Especulativa Eficiente en Modelos de Lenguaje de Gran Escala

VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs

Resumen

Support