ChatPaper.aiChatPaper

POSS: Lo Specialista di Posizione Genera Bozze Migliori per il Decodifica Speculativa

POSS: Position Specialist Generates Better Draft for Speculative Decoding

June 4, 2025
Autori: Langlin Huang, Chengsong Huang, Jixuan Leng, Di Huang, Jiaxin Huang
cs.AI

Abstract

La decodifica speculativa accelera l'inferenza dei Large Language Model (LLM) utilizzando un piccolo modello draft per prevedere più token e un grande modello target per verificarli in parallelo. Studi recenti sfruttano lo stato nascosto del modello target per migliorare l'accuratezza delle previsioni del modello draft. Tuttavia, i metodi esistenti soffrono di un deterioramento della qualità delle previsioni dei token draft nelle posizioni successive, a causa dell'accumulo di errori nelle caratteristiche generate dal modello draft. In questo articolo, proponiamo i Position Specialists (PosS), che consistono in più livelli draft specializzati per posizione per generare token in posizioni assegnate. I Position Specialists migliorano notevolmente il tasso di accettazione dei token nelle posizioni successive per ogni ciclo di drafting, poiché ogni specialista deve concentrarsi solo sulla gestione di un certo livello di deviazione delle caratteristiche del modello draft. I risultati sperimentali su Llama-3-8B-Instruct e Llama-2-13B-chat su sei dataset dimostrano che PosS migliora efficacemente rispetto ai baseline in termini di lunghezza media di accettazione e rapporto di accelerazione. Il nostro codice è disponibile all'indirizzo https://github.com/shrango/PosS.
English
Speculative decoding accelerates Large Language Model (LLM) inference by using a small draft model to predict multiple tokens, and a large target model to verify these tokens in parallel. Recent studies leverage the hidden state of the target model to enhance draft model prediction accuracy. However, existing methods suffer from the degrading quality of draft token predictions at later positions, due to error accumulation in draft model generated features. In this paper, we propose Position Specialists (PosS), which consist of multiple position-specialized draft layers to generate tokens at assigned position(s). Position specialists greatly improve token acceptance rate at later positions per drafting round, as each specialist only needs to focus on handling a certain level of draft model feature deviation. Experiment results on Llama-3-8B-Instruct and Llama-2-13B-chat across six datasets demonstrate that PosS effectively improves over baselines on average acceptance length and speed-up ratio. Our codebase is available at https://github.com/shrango/PosS.
PDF62June 5, 2025