ChatPaper.aiChatPaper

POSS : Le Spécialiste de Position Génère un Brouillon de Meilleure Qualité pour le Décodage Spéculatif

POSS: Position Specialist Generates Better Draft for Speculative Decoding

June 4, 2025
Auteurs: Langlin Huang, Chengsong Huang, Jixuan Leng, Di Huang, Jiaxin Huang
cs.AI

Résumé

Le décodage spéculatif accélère l'inférence des grands modèles de langage (LLM) en utilisant un petit modèle de brouillon pour prédire plusieurs tokens, et un grand modèle cible pour vérifier ces tokens en parallèle. Des études récentes exploitent l'état caché du modèle cible pour améliorer la précision des prédictions du modèle de brouillon. Cependant, les méthodes existantes souffrent d'une dégradation de la qualité des prédictions de tokens à des positions ultérieures, en raison de l'accumulation d'erreurs dans les caractéristiques générées par le modèle de brouillon. Dans cet article, nous proposons les Spécialistes de Position (PosS), qui consistent en plusieurs couches de brouillon spécialisées par position pour générer des tokens à des positions assignées. Les spécialistes de position améliorent considérablement le taux d'acceptation des tokens à des positions ultérieures par tour de brouillon, car chaque spécialiste n'a besoin de se concentrer que sur la gestion d'un certain niveau de déviation des caractéristiques du modèle de brouillon. Les résultats d'expérimentation sur Llama-3-8B-Instruct et Llama-2-13B-chat à travers six ensembles de données démontrent que PosS améliore efficacement les performances par rapport aux lignes de base en termes de longueur moyenne d'acceptation et de ratio d'accélération. Notre base de code est disponible à l'adresse https://github.com/shrango/PosS.
English
Speculative decoding accelerates Large Language Model (LLM) inference by using a small draft model to predict multiple tokens, and a large target model to verify these tokens in parallel. Recent studies leverage the hidden state of the target model to enhance draft model prediction accuracy. However, existing methods suffer from the degrading quality of draft token predictions at later positions, due to error accumulation in draft model generated features. In this paper, we propose Position Specialists (PosS), which consist of multiple position-specialized draft layers to generate tokens at assigned position(s). Position specialists greatly improve token acceptance rate at later positions per drafting round, as each specialist only needs to focus on handling a certain level of draft model feature deviation. Experiment results on Llama-3-8B-Instruct and Llama-2-13B-chat across six datasets demonstrate that PosS effectively improves over baselines on average acceptance length and speed-up ratio. Our codebase is available at https://github.com/shrango/PosS.
PDF62June 5, 2025