Entwurfmodell weiß, wann es aufhören soll: Eine Selbstverifizierungslängenrichtlinie für spekulative Decodierung.
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
November 27, 2024
Autoren: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
cs.AI
Zusammenfassung
Spekulatives Dekodieren (SD) ist zu einer wichtigen Technik geworden, um die Inferenzgeschwindigkeit großer Sprachmodelle zu beschleunigen. Herkömmliche SD-Methoden verwenden eine feste Entwurflänge, die die Schwierigkeit der Token-Generierung über verschiedene Aufgaben hinweg ignoriert. In diesem Paper behandeln wir daher ein solches Problem und stellen SVIP vor - eine schwierigkeitsbewusste dynamische Entwurflängenstrategie für spekulative Dekodiersysteme. Basierend auf einer theoretischen unteren Grenze der Akzeptanzrate von Entwurfstoken und ihrer Näherung zur Inferenzzeit bestimmt SVIP adaptiv die Längen von Entwurfssequenzen basierend auf der Entropie der Verteilung jedes Entwurfstokens. Experimentelle Ergebnisse an gängigen SD-Benchmarks und -Frameworks zeigen die überlegene Leistung von SVIP, die eine bis zu 20\%ige Beschleunigung der Wandzeit bei SpecBench im Vergleich zu herkömmlichen SD-Methoden und eine 60\%ige Beschleunigung bei MT-Bench für die Generierung von Langformen von bis zu 8K Token erreicht. Darüber hinaus ist SVIP vollständig trainingsfrei und kompatibel mit allen bestehenden SD-Methoden, die Entwurfstoken autoregressiv generieren. Experimentelle Ergebnisse zeigen auch, dass SVIP eine konsistente Verbesserung der Wandzeit zusätzlich zu GliDe & CaPE und EAGLE-2 liefert.
English
Speculative Decoding (SD) has become an important technique in accelerating
the inference speed of large language models. Conventional SD methods employ a
fixed draft length, which ignores the token generation difficulty across tasks.
Consequently, in this paper, we address such an issue and introduce SVIP - a
difficulty-aware dynamic draft length policy for speculative decoding systems.
Based on a theoretical lower bound of draft token acceptance rate and its
inference-time approximation, SVIP adaptively determines the lengths of draft
sequences based on the entropy of each draft token distribution. Experimental
results on mainstream SD benchmarks and frameworks demonstrate the superior
performance of SVIP, achieving up to 20\% walltime speedup on SpecBench over
baseline SD methods and 60\% speedup on MT-Bench for long-form generation of up
to 8K tokens. Moreover, SVIP is totally training-free and compatible with any
existing SD methods that generate draft tokens autoregressively. Experimental
results also show that SVIP yields consistent walltime improvement on top of
GliDe & CaPE and EAGLE-2.Summary
AI-Generated Summary