ChatPaper.aiChatPaper

Conceptueel Model Weet Wanneer te Stoppen: Een Zelf-Verificatie Lengtebeleid voor Speculatieve Decodering

Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

November 27, 2024
Auteurs: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
cs.AI

Samenvatting

Speculatief decoderen (SD) is een belangrijke techniek geworden om de inferentiesnelheid van grote taalmodellen te versnellen. Conventionele SD-methoden maken gebruik van een vaste conceptlengte, die de moeilijkheidsgraad van token-generatie over taken heen negeert. In dit artikel pakken we dit probleem aan en introduceren we SVIP - een moeilijkheidsbewust dynamisch conceptlengtebeleid voor speculatieve decodeersystemen. Gebaseerd op een theoretische ondergrens van de acceptatiesnelheid van concepttokens en de benadering van de inferentietijd, bepaalt SVIP adaptief de lengtes van conceptreeksen op basis van de entropie van elke concepttokenverdeling. Experimentele resultaten op gangbare SD-benchmarks en -frameworks tonen de superieure prestaties van SVIP aan, met een snelheidsverbetering van maximaal 20% op SpecBench ten opzichte van basismethoden voor SD en een snelheidsverbetering van 60% op MT-Bench voor de generatie van lange teksten tot 8K tokens. Bovendien is SVIP volledig trainingvrij en compatibel met alle bestaande SD-methoden die concepttokens autoregressief genereren. Experimentele resultaten tonen ook aan dat SVIP consistente snelheidsverbeteringen oplevert bovenop GliDe & CaPE en EAGLE-2.
English
Speculative Decoding (SD) has become an important technique in accelerating the inference speed of large language models. Conventional SD methods employ a fixed draft length, which ignores the token generation difficulty across tasks. Consequently, in this paper, we address such an issue and introduce SVIP - a difficulty-aware dynamic draft length policy for speculative decoding systems. Based on a theoretical lower bound of draft token acceptance rate and its inference-time approximation, SVIP adaptively determines the lengths of draft sequences based on the entropy of each draft token distribution. Experimental results on mainstream SD benchmarks and frameworks demonstrate the superior performance of SVIP, achieving up to 20\% walltime speedup on SpecBench over baseline SD methods and 60\% speedup on MT-Bench for long-form generation of up to 8K tokens. Moreover, SVIP is totally training-free and compatible with any existing SD methods that generate draft tokens autoregressively. Experimental results also show that SVIP yields consistent walltime improvement on top of GliDe & CaPE and EAGLE-2.

Summary

AI-Generated Summary

PDF62November 28, 2024