FR-Spec: Accelerazione dei Modelli Linguistici con Ampio Vocabolario tramite Campionamento Speculativo Basato sulla Frequenza
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling
February 20, 2025
Autori: Weilin Zhao, Tengyu Pan, Xu Han, Yudi Zhang, Ao Sun, Yuxiang Huang, Kaihuo Zhang, Weilun Zhao, Yuxuan Li, Jianyong Wang, Zhiyuan Liu, Maosong Sun
cs.AI
Abstract
Il campionamento speculativo è emerso come una tecnica importante per accelerare il processo di generazione auto-regressiva dei grandi modelli linguistici (LLM) attraverso l'utilizzo di un meccanismo di bozza-verifica per produrre più token per ogni passaggio in avanti. Mentre i metodi di campionamento speculativo più avanzati utilizzano solo un singolo strato e una testa di modellazione linguistica (LM) come modello di bozza per ottenere un'impressionante compressione degli strati, i loro guadagni di efficienza si riducono sostanzialmente per LLM con vocabolari estesi, come Llama-3-8B con un vocabolario di 128k token. Per affrontare questo problema, presentiamo FR-Spec, un framework di campionamento speculativo basato sulla frequenza che ottimizza la selezione dei candidati di bozza attraverso la compressione dello spazio del vocabolario. Limitando la ricerca della bozza a un sottoinsieme di token prioritari in base alla frequenza, il nostro metodo riduce il sovraccarico computazionale della testa LM del 75% garantendo l'equivalenza della distribuzione finale dell'output. Esperimenti su più dataset dimostrano un'accelerazione media di 1.12 volte rispetto al metodo di campionamento speculativo più avanzato, EAGLE-2.
English
Speculative sampling has emerged as an important technique for accelerating
the auto-regressive generation process of large language models (LLMs) by
utilizing a draft-then-verify mechanism to produce multiple tokens per forward
pass. While state-of-the-art speculative sampling methods use only a single
layer and a language modeling (LM) head as the draft model to achieve
impressive layer compression, their efficiency gains are substantially reduced
for large-vocabulary LLMs, such as Llama-3-8B with a vocabulary of 128k tokens.
To address this, we present FR-Spec, a frequency-ranked speculative sampling
framework that optimizes draft candidate selection through vocabulary space
compression. By constraining the draft search to a frequency-prioritized token
subset, our method reduces LM Head computation overhead by 75% while ensuring
the equivalence of the final output distribution. Experiments across multiple
datasets demonstrate an average of 1.12times speedup over the
state-of-the-art speculative sampling method EAGLE-2.Summary
AI-Generated Summary