FR-Spec: Beschleunigung von Sprachmodellen mit großem Vokabular durch frequenzbasiertes spekulatives Sampling
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling
February 20, 2025
Autoren: Weilin Zhao, Tengyu Pan, Xu Han, Yudi Zhang, Ao Sun, Yuxiang Huang, Kaihuo Zhang, Weilun Zhao, Yuxuan Li, Jianyong Wang, Zhiyuan Liu, Maosong Sun
cs.AI
Zusammenfassung
Spekulative Stichprobenentnahme hat sich als wichtige Technik zur Beschleunigung des autoregressiven Generierungsprozesses großer Sprachmodelle (LLMs) etabliert, indem sie einen Entwurf-dann-überprüfen-Mechanismus nutzt, um mehrere Token pro Vorwärtsdurchlauf zu erzeugen. Während state-of-the-art spekulative Stichprobenmethoden nur eine einzelne Schicht und einen Sprachmodellierungs-Kopf (LM Head) als Entwurfsmodell verwenden, um eine beeindruckende Schichtkompression zu erreichen, sind ihre Effizienzgewinne für LLMs mit großem Vokabular, wie Llama-3-8B mit einem Vokabular von 128k Token, erheblich reduziert. Um dies zu adressieren, präsentieren wir FR-Spec, ein frequenzbasiertes spekulatives Stichprobenframework, das die Auswahl von Entwurfskandidaten durch die Kompression des Vokabularraums optimiert. Durch die Beschränkung der Entwurfssuche auf eine frequenzpriorisierte Token-Teilmenge reduziert unsere Methode den Rechenaufwand des LM Heads um 75 %, während die Äquivalenz der endgültigen Ausgabeverteilung sichergestellt wird. Experimente über mehrere Datensätze hinweg zeigen eine durchschnittliche Beschleunigung von 1,12-mal gegenüber der state-of-the-art spekulativen Stichprobenmethode EAGLE-2.
English
Speculative sampling has emerged as an important technique for accelerating
the auto-regressive generation process of large language models (LLMs) by
utilizing a draft-then-verify mechanism to produce multiple tokens per forward
pass. While state-of-the-art speculative sampling methods use only a single
layer and a language modeling (LM) head as the draft model to achieve
impressive layer compression, their efficiency gains are substantially reduced
for large-vocabulary LLMs, such as Llama-3-8B with a vocabulary of 128k tokens.
To address this, we present FR-Spec, a frequency-ranked speculative sampling
framework that optimizes draft candidate selection through vocabulary space
compression. By constraining the draft search to a frequency-prioritized token
subset, our method reduces LM Head computation overhead by 75% while ensuring
the equivalence of the final output distribution. Experiments across multiple
datasets demonstrate an average of 1.12times speedup over the
state-of-the-art speculative sampling method EAGLE-2.Summary
AI-Generated Summary