ChatPaper.aiChatPaper

Modelo Preliminar Sabe Quando Parar: Uma Política de Comprimento de Autoverificação para Decodificação Especulativa

Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

November 27, 2024
Autores: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
cs.AI

Resumo

A Decodificação Especulativa (SD) tornou-se uma técnica importante para acelerar a velocidade de inferência de grandes modelos de linguagem. Os métodos SD convencionais empregam um comprimento de rascunho fixo, que ignora a dificuldade de geração de tokens entre tarefas. Portanto, neste artigo, abordamos essa questão e introduzimos o SVIP - uma política de comprimento de rascunho dinâmico sensível à dificuldade para sistemas de decodificação especulativa. Com base em um limite teórico inferior da taxa de aceitação de tokens de rascunho e sua aproximação no tempo de inferência, o SVIP determina adaptativamente os comprimentos das sequências de rascunho com base na entropia de cada distribuição de tokens de rascunho. Resultados experimentais em benchmarks e estruturas SD convencionais demonstram o desempenho superior do SVIP, alcançando até 20% de aceleração no tempo de parede no SpecBench em comparação com os métodos SD básicos e 60% de aceleração no MT-Bench para geração de longos textos de até 8K tokens. Além disso, o SVIP é totalmente independente de treinamento e compatível com quaisquer métodos SD existentes que geram tokens de rascunho de forma autoregressiva. Os resultados experimentais também mostram que o SVIP proporciona uma melhoria consistente no tempo de parede em relação ao GliDe & CaPE e EAGLE-2.
English
Speculative Decoding (SD) has become an important technique in accelerating the inference speed of large language models. Conventional SD methods employ a fixed draft length, which ignores the token generation difficulty across tasks. Consequently, in this paper, we address such an issue and introduce SVIP - a difficulty-aware dynamic draft length policy for speculative decoding systems. Based on a theoretical lower bound of draft token acceptance rate and its inference-time approximation, SVIP adaptively determines the lengths of draft sequences based on the entropy of each draft token distribution. Experimental results on mainstream SD benchmarks and frameworks demonstrate the superior performance of SVIP, achieving up to 20\% walltime speedup on SpecBench over baseline SD methods and 60\% speedup on MT-Bench for long-form generation of up to 8K tokens. Moreover, SVIP is totally training-free and compatible with any existing SD methods that generate draft tokens autoregressively. Experimental results also show that SVIP yields consistent walltime improvement on top of GliDe & CaPE and EAGLE-2.

Summary

AI-Generated Summary

PDF62November 28, 2024