ChatPaper.aiChatPaper

POSS: Especialista em Posição Gera Rascunho Melhor para Decodificação Especulativa

POSS: Position Specialist Generates Better Draft for Speculative Decoding

June 4, 2025
Autores: Langlin Huang, Chengsong Huang, Jixuan Leng, Di Huang, Jiaxin Huang
cs.AI

Resumo

A decodificação especulativa acelera a inferência de modelos de linguagem de grande escala (LLMs) ao utilizar um modelo rascunho pequeno para prever múltiplos tokens e um modelo alvo grande para verificar esses tokens em paralelo. Estudos recentes aproveitam o estado oculto do modelo alvo para melhorar a precisão das previsões do modelo rascunho. No entanto, os métodos existentes sofrem com a degradação da qualidade das previsões de tokens rascunho em posições posteriores, devido ao acúmulo de erros nas características geradas pelo modelo rascunho. Neste artigo, propomos Especialistas de Posição (PosS), que consistem em múltiplas camadas rascunho especializadas por posição para gerar tokens em posições designadas. Os especialistas de posição melhoram significativamente a taxa de aceitação de tokens em posições posteriores por rodada de rascunho, pois cada especialista precisa se concentrar apenas em lidar com um certo nível de desvio das características do modelo rascunho. Resultados experimentais em Llama-3-8B-Instruct e Llama-2-13B-chat em seis conjuntos de dados demonstram que o PosS melhora efetivamente as linhas de base em relação ao comprimento médio de aceitação e à taxa de aceleração. Nossa base de código está disponível em https://github.com/shrango/PosS.
English
Speculative decoding accelerates Large Language Model (LLM) inference by using a small draft model to predict multiple tokens, and a large target model to verify these tokens in parallel. Recent studies leverage the hidden state of the target model to enhance draft model prediction accuracy. However, existing methods suffer from the degrading quality of draft token predictions at later positions, due to error accumulation in draft model generated features. In this paper, we propose Position Specialists (PosS), which consist of multiple position-specialized draft layers to generate tokens at assigned position(s). Position specialists greatly improve token acceptance rate at later positions per drafting round, as each specialist only needs to focus on handling a certain level of draft model feature deviation. Experiment results on Llama-3-8B-Instruct and Llama-2-13B-chat across six datasets demonstrate that PosS effectively improves over baselines on average acceptance length and speed-up ratio. Our codebase is available at https://github.com/shrango/PosS.
PDF62June 5, 2025