ChatPaper.aiChatPaper

VOCABTRIM: Poda de Vocabulário para Decodificação Especulativa Eficiente em LLMs

VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs

June 28, 2025
Autores: Raghavv Goel, Sudhanshu Agrawal, Mukul Gagrani, Junyoung Park, Yifan Zao, He Zhang, Tian Liu, Yiping Yang, Xin Yuan, Jiuyan Lu, Chris Lott, Mingu Lee
cs.AI

Resumo

Neste artigo, apresentamos uma técnica simples e livre de treinamento para melhorar o desempenho de métodos de decodificação especulativa (SpD) baseados em rascunhos que incorporam o cabeçalho de modelagem de linguagem (LM head) durante o processo de rascunho. A decodificação especulativa baseada em rascunhos utiliza um ou mais modelos de linguagem menores, conhecidos como rascunhos ou modelos de rascunho, para amostrar uma sequência ou árvore de rascunho composta por múltiplos tokens, seguida pela verificação por um LLM base, o modelo alvo, que aceita um subconjunto como sua geração válida. Como geralmente se considera que a decodificação especulativa requer um mapeamento um-para-um entre os vocabulários do modelo alvo e do modelo de rascunho, tem sido natural compartilhar o vocabulário entre eles, ou até mesmo compartilhar o LM head, como em EAGLE ou Medusa. Primeiro, identificamos que esse esquema de amostragem de tokens de rascunho contém inerentemente uma sobrecarga desnecessária de inferência durante o rascunho, especialmente para alguns LLMs alvos com vocabulários muito grandes. Em seguida, propomos uma técnica simples, o VocabTrim, para mitigar a sobrecarga de rascunho e melhorar a velocidade de geração em ambientes com restrição de memória. O VocabTrim reconstrói o LM head do rascunho para conter apenas um conjunto limitado de tokens, selecionados pelos mais frequentemente amostrados do vocabulário do modelo alvo. Embora a limitação do vocabulário no rascunho degrade ligeiramente a taxa de aceitação, ela reduz significativamente a latência de rascunho em processos com restrição de memória, o que é frequentemente o caso em dispositivos de borda, resultando em um maior aumento de velocidade com restrição de memória (MBSU). Mostramos que nosso método pode impulsionar o aumento de velocidade com restrição de memória para modelos Llama-3 no Spec-Bench, especificamente em 16% para o Llama-3.2-3B-Instruct.
English
In this paper, we introduce a simple training-free technique to improve the performance of drafter-based speculative decoding (SpD) methods that incorporates language modeling head (LM head) during drafting process. A drafter-based speculative decoding leverages one or more smaller language models, a.k.a. drafters or draft models, to sample a draft sequence or tree consisting of multiple tokens, followed by verification by a base LLM, a target model, accepting a subset as its valid generation. As it is usually considered that the speculative decoding requires one-to-one mapping between vocabularies of the target model and the draft model, it has been natural to share the vocabulary between them, or even share the LM head as in EAGLE or Medusa. We first identify that this draft token sampling scheme inherently contains an unnecessary inference overhead in drafting, especially for some target LLMs with very large vocabularies. Then, we propose a simple technique, VocabTrim, to mitigate the drafting overhead to improve the generation speed in memory-bound environment. VocabTrim reconstructs the drafter LM head to contain only a limited set of tokens, selected by the most frequently sampled from the vocabulary of the target model. While limiting the vocabulary in drafting slightly degrades the acceptance rate, it significantly reduces the drafting latency in memory-bound process which is often the case on edge devices, resulting in higher memory-bound speed up (MBSU). We show that our method can boost the memory-bound speed-up for Llama-3 models on Spec-Bench, specifically by 16% for Llama-3.2-3B-Instruct.
PDF31July 1, 2025