AdaSPEC: Selectieve Kennisdistillatie voor Efficiënte Speculatieve Decoders
AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders
October 22, 2025
Auteurs: Yuezhou Hu, Jiaxin Guo, Xinyu Feng, Tuo Zhao
cs.AI
Samenvatting
Speculatief Decoderen (SD) versnelt de inferentie van grote taalmodel(len) door een klein draft-model te gebruiken om voorspellingen te genereren, die vervolgens worden geverifieerd door een groter doelmodel. De effectiviteit van SD hangt af van de afstemming tussen deze modellen, wat doorgaans wordt verbeterd door Knowledge Distillation (KD). Conventionele KD-methoden hebben echter als doel de KL-divergentie tussen de draft- en doelmodellen voor alle tokens te minimaliseren, een doelstelling die niet in lijn is met het werkelijke doel van SD, namelijk het maximaliseren van het tokenacceptatiepercentage. Daardoor hebben draft-modellen vaak moeite om de kennis van het doelmodel volledig te assimileren vanwege capaciteitsbeperkingen, wat leidt tot suboptimale prestaties. Om deze uitdaging aan te pakken, stellen we AdaSPEC voor, een nieuwe methode die selectieve tokenfiltering integreert in het KD-proces. AdaSPEC gebruikt een referentiemodel om moeilijk aan te passen tokens te identificeren en eruit te filteren, waardoor de distillatie van een draft-model mogelijk wordt dat beter is afgestemd op het doelmodel voor eenvoudigere tokens. Deze aanpak verbetert het algehele tokenacceptatiepercentage zonder de generatiekwaliteit aan te tasten. We evalueren AdaSPEC voor diverse taken, waaronder rekenkundig redeneren, instructie-opvolging, codering en samenvatting, met modelconfiguraties van 31M/1.4B en 350M/2.7B parameters. Onze resultaten tonen aan dat AdaSPEC consistent de state-of-the-art DistillSpec-methode overtreft, met hogere acceptatiepercentages voor alle taken (tot 15%). De code is openbaar beschikbaar op https://github.com/yuezhouhu/adaspec.
English
Speculative Decoding (SD) accelerates large language model inference by
employing a small draft model to generate predictions, which are then verified
by a larger target model. The effectiveness of SD hinges on the alignment
between these models, which is typically enhanced by Knowledge Distillation
(KD). However, conventional KD methods aim to minimize the KL divergence
between the draft and target models across all tokens, a goal that is
misaligned with the true objective of SD, which is to maximize token acceptance
rate. Therefore, draft models often struggle to fully assimilate the target
model's knowledge due to capacity constraints, leading to suboptimal
performance. To address this challenge, we propose AdaSPEC, a novel method that
incorporates selective token filtering into the KD process. AdaSPEC utilizes a
reference model to identify and filter out difficult-to-fit tokens, enabling
the distillation of a draft model that better aligns with the target model on
simpler tokens. This approach improves the overall token acceptance rate
without compromising generation quality. We evaluate AdaSPEC across diverse
tasks, including arithmetic reasoning, instruction-following, coding, and
summarization, using model configurations of 31M/1.4B and 350M/2.7B parameters.
Our results demonstrate that AdaSPEC consistently outperforms the
state-of-the-art DistillSpec method, achieving higher acceptance rates across
all tasks (up to 15\%). The code is publicly available at
https://github.com/yuezhouhu/adaspec.