AdaSPEC: Distilagem Seletiva de Conhecimento para Decodificadores Especulativos Eficientes
AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders
October 22, 2025
Autores: Yuezhou Hu, Jiaxin Guo, Xinyu Feng, Tuo Zhao
cs.AI
Resumo
A Decodificação Especulativa (SD) acelera a inferência de modelos de linguagem grandes empregando um modelo de rascunho pequeno para gerar previsões, que são então verificadas por um modelo alvo maior. A eficácia da SD depende do alinhamento entre esses modelos, que é tipicamente aprimorado pela Destilação de Conhecimento (KD). No entanto, os métodos convencionais de KD visam minimizar a divergência de KL entre os modelos de rascunho e alvo em todos os tokens, um objetivo que está desalinhado com o verdadeiro objetivo da SD, que é maximizar a taxa de aceitação de tokens. Portanto, os modelos de rascunho frequentemente lutam para assimilar completamente o conhecimento do modelo alvo devido a restrições de capacidade, levando a um desempenho abaixo do ideal. Para enfrentar este desafio, propomos o AdaSPEC, um método novo que incorpora a filtragem seletiva de tokens no processo de KD. O AdaSPEC utiliza um modelo de referência para identificar e filtrar tokens difíceis de ajustar, permitindo a destilação de um modelo de rascunho que melhor se alinha com o modelo alvo em tokens mais simples. Esta abordagem melhora a taxa geral de aceitação de tokens sem comprometer a qualidade da geração. Avaliamos o AdaSPEC em diversas tarefas, incluindo raciocínio aritmético, seguimento de instruções, codificação e sumarização, usando configurações de modelo de 31M/1.4B e 350M/2.7B de parâmetros. Nossos resultados demonstram que o AdaSPEC supera consistentemente o método state-of-the-art DistillSpec, alcançando taxas de aceitação mais altas em todas as tarefas (até 15%). O código está publicamente disponível em https://github.com/yuezhouhu/adaspec.
English
Speculative Decoding (SD) accelerates large language model inference by
employing a small draft model to generate predictions, which are then verified
by a larger target model. The effectiveness of SD hinges on the alignment
between these models, which is typically enhanced by Knowledge Distillation
(KD). However, conventional KD methods aim to minimize the KL divergence
between the draft and target models across all tokens, a goal that is
misaligned with the true objective of SD, which is to maximize token acceptance
rate. Therefore, draft models often struggle to fully assimilate the target
model's knowledge due to capacity constraints, leading to suboptimal
performance. To address this challenge, we propose AdaSPEC, a novel method that
incorporates selective token filtering into the KD process. AdaSPEC utilizes a
reference model to identify and filter out difficult-to-fit tokens, enabling
the distillation of a draft model that better aligns with the target model on
simpler tokens. This approach improves the overall token acceptance rate
without compromising generation quality. We evaluate AdaSPEC across diverse
tasks, including arithmetic reasoning, instruction-following, coding, and
summarization, using model configurations of 31M/1.4B and 350M/2.7B parameters.
Our results demonstrate that AdaSPEC consistently outperforms the
state-of-the-art DistillSpec method, achieving higher acceptance rates across
all tasks (up to 15\%). The code is publicly available at
https://github.com/yuezhouhu/adaspec.