FR-Spec: Accelerazione dei Modelli Linguistici con Ampio Vocabolario tramite Campionamento Speculativo Basato sulla Frequenza

Abstract

Il campionamento speculativo è emerso come una tecnica importante per accelerare il processo di generazione auto-regressiva dei grandi modelli linguistici (LLM) attraverso l'utilizzo di un meccanismo di bozza-verifica per produrre più token per ogni passaggio in avanti. Mentre i metodi di campionamento speculativo più avanzati utilizzano solo un singolo strato e una testa di modellazione linguistica (LM) come modello di bozza per ottenere un'impressionante compressione degli strati, i loro guadagni di efficienza si riducono sostanzialmente per LLM con vocabolari estesi, come Llama-3-8B con un vocabolario di 128k token. Per affrontare questo problema, presentiamo FR-Spec, un framework di campionamento speculativo basato sulla frequenza che ottimizza la selezione dei candidati di bozza attraverso la compressione dello spazio del vocabolario. Limitando la ricerca della bozza a un sottoinsieme di token prioritari in base alla frequenza, il nostro metodo riduce il sovraccarico computazionale della testa LM del 75% garantendo l'equivalenza della distribuzione finale dell'output. Esperimenti su più dataset dimostrano un'accelerazione media di 1.12 volte rispetto al metodo di campionamento speculativo più avanzato, EAGLE-2.

English

Speculative sampling has emerged as an important technique for accelerating the auto-regressive generation process of large language models (LLMs) by utilizing a draft-then-verify mechanism to produce multiple tokens per forward pass. While state-of-the-art speculative sampling methods use only a single layer and a language modeling (LM) head as the draft model to achieve impressive layer compression, their efficiency gains are substantially reduced for large-vocabulary LLMs, such as Llama-3-8B with a vocabulary of 128k tokens. To address this, we present FR-Spec, a frequency-ranked speculative sampling framework that optimizes draft candidate selection through vocabulary space compression. By constraining the draft search to a frequency-prioritized token subset, our method reduces LM Head computation overhead by 75% while ensuring the equivalence of the final output distribution. Experiments across multiple datasets demonstrate an average of 1.12times speedup over the state-of-the-art speculative sampling method EAGLE-2.

FR-Spec: Accelerazione dei Modelli Linguistici con Ampio Vocabolario tramite Campionamento Speculativo Basato sulla Frequenza

FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling

Abstract

Support