FR-Spec : Accélération des modèles de langage à grand vocabulaire via un échantillonnage spéculatif basé sur la fréquence
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling
February 20, 2025
Auteurs: Weilin Zhao, Tengyu Pan, Xu Han, Yudi Zhang, Ao Sun, Yuxiang Huang, Kaihuo Zhang, Weilun Zhao, Yuxuan Li, Jianyong Wang, Zhiyuan Liu, Maosong Sun
cs.AI
Résumé
L'échantillonnage spéculatif est devenu une technique importante pour accélérer le processus de génération auto-régressive des grands modèles de langage (LLMs) en utilisant un mécanisme de brouillon-puis-vérification pour produire plusieurs tokens par passage avant. Bien que les méthodes d'échantillonnage spéculatif de pointe n'utilisent qu'une seule couche et une tête de modélisation du langage (LM) comme modèle de brouillon pour obtenir une compression impressionnante des couches, leurs gains d'efficacité sont considérablement réduits pour les LLMs à grand vocabulaire, tels que Llama-3-8B avec un vocabulaire de 128k tokens. Pour remédier à cela, nous présentons FR-Spec, un cadre d'échantillonnage spéculatif classé par fréquence qui optimise la sélection des candidats de brouillon grâce à une compression de l'espace du vocabulaire. En limitant la recherche de brouillon à un sous-ensemble de tokens priorisé par fréquence, notre méthode réduit la surcharge de calcul de la tête LM de 75% tout en garantissant l'équivalence de la distribution finale des sorties. Les expériences menées sur plusieurs ensembles de données démontrent une accélération moyenne de 1,12 fois par rapport à la méthode d'échantillonnage spéculatif de pointe EAGLE-2.
English
Speculative sampling has emerged as an important technique for accelerating
the auto-regressive generation process of large language models (LLMs) by
utilizing a draft-then-verify mechanism to produce multiple tokens per forward
pass. While state-of-the-art speculative sampling methods use only a single
layer and a language modeling (LM) head as the draft model to achieve
impressive layer compression, their efficiency gains are substantially reduced
for large-vocabulary LLMs, such as Llama-3-8B with a vocabulary of 128k tokens.
To address this, we present FR-Spec, a frequency-ranked speculative sampling
framework that optimizes draft candidate selection through vocabulary space
compression. By constraining the draft search to a frequency-prioritized token
subset, our method reduces LM Head computation overhead by 75% while ensuring
the equivalence of the final output distribution. Experiments across multiple
datasets demonstrate an average of 1.12times speedup over the
state-of-the-art speculative sampling method EAGLE-2.Summary
AI-Generated Summary