POSS: El Especialista en Posición Genera Mejores Borradores para la Decodificación Especulativa
POSS: Position Specialist Generates Better Draft for Speculative Decoding
June 4, 2025
Autores: Langlin Huang, Chengsong Huang, Jixuan Leng, Di Huang, Jiaxin Huang
cs.AI
Resumen
La decodificación especulativa acelera la inferencia de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) al utilizar un modelo de borrador pequeño para predecir múltiples tokens y un modelo objetivo grande para verificar estos tokens en paralelo. Estudios recientes aprovechan el estado oculto del modelo objetivo para mejorar la precisión de las predicciones del modelo de borrador. Sin embargo, los métodos existentes sufren de una degradación en la calidad de las predicciones de tokens en posiciones posteriores, debido a la acumulación de errores en las características generadas por el modelo de borrador. En este artículo, proponemos Especialistas de Posición (PosS), que consisten en múltiples capas de borrador especializadas en posiciones para generar tokens en posiciones asignadas. Los especialistas de posición mejoran significativamente la tasa de aceptación de tokens en posiciones posteriores por ronda de borrador, ya que cada especialista solo necesita enfocarse en manejar un cierto nivel de desviación en las características del modelo de borrador. Los resultados experimentales en Llama-3-8B-Instruct y Llama-2-13B-chat en seis conjuntos de datos demuestran que PosS mejora efectivamente las líneas de base en la longitud promedio de aceptación y la relación de aceleración. Nuestro código está disponible en https://github.com/shrango/PosS.
English
Speculative decoding accelerates Large Language Model (LLM) inference by
using a small draft model to predict multiple tokens, and a large target model
to verify these tokens in parallel. Recent studies leverage the hidden state of
the target model to enhance draft model prediction accuracy. However, existing
methods suffer from the degrading quality of draft token predictions at later
positions, due to error accumulation in draft model generated features. In this
paper, we propose Position Specialists (PosS), which consist of multiple
position-specialized draft layers to generate tokens at assigned position(s).
Position specialists greatly improve token acceptance rate at later positions
per drafting round, as each specialist only needs to focus on handling a
certain level of draft model feature deviation. Experiment results on
Llama-3-8B-Instruct and Llama-2-13B-chat across six datasets demonstrate that
PosS effectively improves over baselines on average acceptance length and
speed-up ratio. Our codebase is available at https://github.com/shrango/PosS.