POSS: El Especialista en Posición Genera Mejores Borradores para la Decodificación Especulativa

Resumen

La decodificación especulativa acelera la inferencia de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) al utilizar un modelo de borrador pequeño para predecir múltiples tokens y un modelo objetivo grande para verificar estos tokens en paralelo. Estudios recientes aprovechan el estado oculto del modelo objetivo para mejorar la precisión de las predicciones del modelo de borrador. Sin embargo, los métodos existentes sufren de una degradación en la calidad de las predicciones de tokens en posiciones posteriores, debido a la acumulación de errores en las características generadas por el modelo de borrador. En este artículo, proponemos Especialistas de Posición (PosS), que consisten en múltiples capas de borrador especializadas en posiciones para generar tokens en posiciones asignadas. Los especialistas de posición mejoran significativamente la tasa de aceptación de tokens en posiciones posteriores por ronda de borrador, ya que cada especialista solo necesita enfocarse en manejar un cierto nivel de desviación en las características del modelo de borrador. Los resultados experimentales en Llama-3-8B-Instruct y Llama-2-13B-chat en seis conjuntos de datos demuestran que PosS mejora efectivamente las líneas de base en la longitud promedio de aceptación y la relación de aceleración. Nuestro código está disponible en https://github.com/shrango/PosS.

English

Speculative decoding accelerates Large Language Model (LLM) inference by using a small draft model to predict multiple tokens, and a large target model to verify these tokens in parallel. Recent studies leverage the hidden state of the target model to enhance draft model prediction accuracy. However, existing methods suffer from the degrading quality of draft token predictions at later positions, due to error accumulation in draft model generated features. In this paper, we propose Position Specialists (PosS), which consist of multiple position-specialized draft layers to generate tokens at assigned position(s). Position specialists greatly improve token acceptance rate at later positions per drafting round, as each specialist only needs to focus on handling a certain level of draft model feature deviation. Experiment results on Llama-3-8B-Instruct and Llama-2-13B-chat across six datasets demonstrate that PosS effectively improves over baselines on average acceptance length and speed-up ratio. Our codebase is available at https://github.com/shrango/PosS.