AdaSPEC : Distillation sélective des connaissances pour des décodeurs spéculatifs efficaces

papers.abstract

Le décodage spéculatif (SD) accélère l'inférence des grands modèles de langage en utilisant un petit modèle d'ébauche pour générer des prédictions, qui sont ensuite vérifiées par un modèle cible plus grand. L'efficacité du SD dépend de l'alignement entre ces modèles, généralement amélioré par la distillation de connaissances (KD). Cependant, les méthodes conventionnelles de KD visent à minimiser la divergence KL entre les modèles d'ébauche et cible sur tous les tokens - un objectif qui n'est pas aligné avec le véritable objectif du SD, qui est de maximiser le taux d'acceptation des tokens. Par conséquent, les modèles d'ébauche peinent souvent à assimiler pleinement les connaissances du modèle cible en raison de contraintes de capacité, conduisant à des performances sous-optimales. Pour relever ce défi, nous proposons AdaSPEC, une méthode novatrice qui intègre un filtrage sélectif des tokens dans le processus de KD. AdaSPEC utilise un modèle de référence pour identifier et filtrer les tokens difficiles à ajuster, permettant la distillation d'un modèle d'ébauche mieux aligné avec le modèle cible sur les tokens plus simples. Cette approche améliore le taux d'acceptation global des tokens sans compromettre la qualité de la génération. Nous évaluons AdaSPEC sur diverses tâches, incluant le raisonnement arithmétique, le suivi d'instructions, la programmation et la synthèse, en utilisant des configurations de modèles de 31M/1,4B et 350M/2,7B de paramètres. Nos résultats démontrent qu'AdaSPEC surpasse constamment la méthode DistillSpec de l'état de l'art, atteignant des taux d'acceptation plus élevés sur toutes les tâches (jusqu'à 15\%). Le code est disponible publiquement à l'adresse https://github.com/yuezhouhu/adaspec.

English

Speculative Decoding (SD) accelerates large language model inference by employing a small draft model to generate predictions, which are then verified by a larger target model. The effectiveness of SD hinges on the alignment between these models, which is typically enhanced by Knowledge Distillation (KD). However, conventional KD methods aim to minimize the KL divergence between the draft and target models across all tokens, a goal that is misaligned with the true objective of SD, which is to maximize token acceptance rate. Therefore, draft models often struggle to fully assimilate the target model's knowledge due to capacity constraints, leading to suboptimal performance. To address this challenge, we propose AdaSPEC, a novel method that incorporates selective token filtering into the KD process. AdaSPEC utilizes a reference model to identify and filter out difficult-to-fit tokens, enabling the distillation of a draft model that better aligns with the target model on simpler tokens. This approach improves the overall token acceptance rate without compromising generation quality. We evaluate AdaSPEC across diverse tasks, including arithmetic reasoning, instruction-following, coding, and summarization, using model configurations of 31M/1.4B and 350M/2.7B parameters. Our results demonstrate that AdaSPEC consistently outperforms the state-of-the-art DistillSpec method, achieving higher acceptance rates across all tasks (up to 15\%). The code is publicly available at https://github.com/yuezhouhu/adaspec.

AdaSPEC : Distillation sélective des connaissances pour des décodeurs spéculatifs efficaces

AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders

papers.abstract

Support