ChatPaper.aiChatPaper

Modèle de brouillon sait quand s'arrêter : une politique de longueur de vérification automatique pour le décodage spéculatif

Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

November 27, 2024
Auteurs: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
cs.AI

Résumé

Le Décodage Spéculatif (SD) est devenu une technique importante pour accélérer la vitesse d'inférence des grands modèles de langage. Les méthodes SD conventionnelles utilisent une longueur de brouillon fixe, ce qui ignore la difficulté de génération des jetons selon les tâches. Par conséquent, dans cet article, nous abordons cette problématique et introduisons SVIP - une politique de longueur de brouillon dynamique prenant en compte la difficulté pour les systèmes de décodage spéculatif. En se basant sur une borne inférieure théorique du taux d'acceptation des jetons de brouillon et son approximation en temps d'inférence, SVIP détermine de manière adaptative les longueurs des séquences de brouillon en fonction de l'entropie de chaque distribution de jetons de brouillon. Les résultats expérimentaux sur des référentiels et des cadres SD populaires démontrent les performances supérieures de SVIP, atteignant jusqu'à 20\% d'accélération du temps mural sur SpecBench par rapport aux méthodes SD de base et 60\% d'accélération sur MT-Bench pour la génération de longs textes allant jusqu'à 8K jetons. De plus, SVIP ne nécessite aucun entraînement et est compatible avec toutes les méthodes SD existantes qui génèrent les jetons de brouillon de manière autorégressive. Les résultats expérimentaux montrent également que SVIP apporte une amélioration constante du temps mural par rapport à GliDe & CaPE et EAGLE-2.
English
Speculative Decoding (SD) has become an important technique in accelerating the inference speed of large language models. Conventional SD methods employ a fixed draft length, which ignores the token generation difficulty across tasks. Consequently, in this paper, we address such an issue and introduce SVIP - a difficulty-aware dynamic draft length policy for speculative decoding systems. Based on a theoretical lower bound of draft token acceptance rate and its inference-time approximation, SVIP adaptively determines the lengths of draft sequences based on the entropy of each draft token distribution. Experimental results on mainstream SD benchmarks and frameworks demonstrate the superior performance of SVIP, achieving up to 20\% walltime speedup on SpecBench over baseline SD methods and 60\% speedup on MT-Bench for long-form generation of up to 8K tokens. Moreover, SVIP is totally training-free and compatible with any existing SD methods that generate draft tokens autoregressively. Experimental results also show that SVIP yields consistent walltime improvement on top of GliDe & CaPE and EAGLE-2.

Summary

AI-Generated Summary

PDF62November 28, 2024