AdaSPEC: Distillazione Selettiva della Conoscenza per Decodificatori Speculativi Efficienti
AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders
October 22, 2025
Autori: Yuezhou Hu, Jiaxin Guo, Xinyu Feng, Tuo Zhao
cs.AI
Abstract
La Decodifica Speculativa (SD) accelera l'inferenza dei grandi modelli linguistici impiegando un piccolo modello "draft" per generare previsioni, che vengono poi verificate da un modello target più grande. L'efficacia della SD dipende dall'allineamento tra questi modelli, solitamente migliorato tramite la Distillazione della Conoscenza (KD). Tuttavia, i metodi KD convenzionali mirano a minimizzare la divergenza KL tra i modelli draft e target su tutti i token, un obiettivo disallineato dalla vera finalità della SD, che è massimizzare il tasso di accettazione dei token. Pertanto, i modelli draft spesso faticano ad assimilare completamente la conoscenza del modello target a causa dei vincoli di capacità, portando a prestazioni non ottimali. Per affrontare questa sfida, proponiamo AdaSPEC, un metodo innovativo che incorpora un filtraggio selettivo dei token nel processo di KD. AdaSPEC utilizza un modello di riferimento per identificare e filtrare i token difficili da apprendere, permettendo la distillazione di un modello draft che risulta meglio allineato al modello target sui token più semplici. Questo approccio migliora il tasso di accettazione complessivo dei token senza compromettere la qualità della generazione. Valutiamo AdaSPEC su vari task, inclusi ragionamento aritmetico, esecuzione di istruzioni, codifica e riassunto, utilizzando configurazioni di modello da 31M/1.4B e 350M/2.7B di parametri. I nostri risultati dimostrano che AdaSPEC supera costantemente il metodo all'avanguardia DistillSpec, raggiungendo tassi di accettazione più elevati in tutti i task (fino al 15\%). Il codice è pubblicamente disponibile all'indirizzo https://github.com/yuezhouhu/adaspec.
English
Speculative Decoding (SD) accelerates large language model inference by
employing a small draft model to generate predictions, which are then verified
by a larger target model. The effectiveness of SD hinges on the alignment
between these models, which is typically enhanced by Knowledge Distillation
(KD). However, conventional KD methods aim to minimize the KL divergence
between the draft and target models across all tokens, a goal that is
misaligned with the true objective of SD, which is to maximize token acceptance
rate. Therefore, draft models often struggle to fully assimilate the target
model's knowledge due to capacity constraints, leading to suboptimal
performance. To address this challenge, we propose AdaSPEC, a novel method that
incorporates selective token filtering into the KD process. AdaSPEC utilizes a
reference model to identify and filter out difficult-to-fit tokens, enabling
the distillation of a draft model that better aligns with the target model on
simpler tokens. This approach improves the overall token acceptance rate
without compromising generation quality. We evaluate AdaSPEC across diverse
tasks, including arithmetic reasoning, instruction-following, coding, and
summarization, using model configurations of 31M/1.4B and 350M/2.7B parameters.
Our results demonstrate that AdaSPEC consistently outperforms the
state-of-the-art DistillSpec method, achieving higher acceptance rates across
all tasks (up to 15\%). The code is publicly available at
https://github.com/yuezhouhu/adaspec.