AdaSPEC: Distilación Selectiva de Conocimiento para Decodificadores Especulativos Eficientes

Resumen

La Decodificación Especulativa (SD) acelera la inferencia de modelos de lenguaje grandes empleando un modelo de borrador pequeño para generar predicciones, que luego son verificadas por un modelo objetivo más grande. La efectividad de la SD depende de la alineación entre estos modelos, la cual normalmente se mejora mediante la Destilación de Conocimiento (KD). Sin embargo, los métodos convencionales de KD buscan minimizar la divergencia KL entre los modelos de borrador y objetivo en todos los tokens, un objetivo que no está alineado con el verdadero propósito de la SD, que es maximizar la tasa de aceptación de tokens. Por lo tanto, los modelos de borrador a menudo luchan por asimilar completamente el conocimiento del modelo objetivo debido a limitaciones de capacidad, lo que conduce a un rendimiento subóptimo. Para abordar este desafío, proponemos AdaSPEC, un método novedoso que incorpora un filtrado selectivo de tokens en el proceso de KD. AdaSPEC utiliza un modelo de referencia para identificar y filtrar los tokens difíciles de ajustar, permitiendo la destilación de un modelo de borrador que se alinea mejor con el modelo objetivo en tokens más simples. Este enfoque mejora la tasa general de aceptación de tokens sin comprometer la calidad de la generación. Evaluamos AdaSPEC en diversas tareas, incluyendo razonamiento aritmético, seguimiento de instrucciones, codificación y resumen, utilizando configuraciones de modelos de 31M/1.4B y 350M/2.7B de parámetros. Nuestros resultados demuestran que AdaSPEC supera consistentemente al método de vanguardia DistillSpec, logrando tasas de aceptación más altas en todas las tareas (hasta un 15\%). El código está disponible públicamente en https://github.com/yuezhouhu/adaspec.

English

Speculative Decoding (SD) accelerates large language model inference by employing a small draft model to generate predictions, which are then verified by a larger target model. The effectiveness of SD hinges on the alignment between these models, which is typically enhanced by Knowledge Distillation (KD). However, conventional KD methods aim to minimize the KL divergence between the draft and target models across all tokens, a goal that is misaligned with the true objective of SD, which is to maximize token acceptance rate. Therefore, draft models often struggle to fully assimilate the target model's knowledge due to capacity constraints, leading to suboptimal performance. To address this challenge, we propose AdaSPEC, a novel method that incorporates selective token filtering into the KD process. AdaSPEC utilizes a reference model to identify and filter out difficult-to-fit tokens, enabling the distillation of a draft model that better aligns with the target model on simpler tokens. This approach improves the overall token acceptance rate without compromising generation quality. We evaluate AdaSPEC across diverse tasks, including arithmetic reasoning, instruction-following, coding, and summarization, using model configurations of 31M/1.4B and 350M/2.7B parameters. Our results demonstrate that AdaSPEC consistently outperforms the state-of-the-art DistillSpec method, achieving higher acceptance rates across all tasks (up to 15\%). The code is publicly available at https://github.com/yuezhouhu/adaspec.

AdaSPEC: Distilación Selectiva de Conocimiento para Decodificadores Especulativos Eficientes

AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders

Resumen

Support