DuoDecoding: Decodifica Speculativa Eterogenea Consapevole dell'Hardware con Generazione Dinamica di Sequenze Multiple

Abstract

I grandi modelli linguistici (LLM) dimostrano prestazioni eccezionali in un'ampia gamma di compiti; tuttavia, il loro processo di generazione autoregressiva token per token riduce significativamente la velocità di inferenza. Il decoding speculativo rappresenta un promettente framework di bozza-then-verifica che riduce la latenza di generazione mantenendo la fedeltà della distribuzione dell'output. Ciononostante, il modello di bozza introduce un sovraccarico computazionale aggiuntivo, diventando un collo di bottiglia delle prestazioni e aumentando il tempo al primo token (TTFT). Gli approcci precedenti per mitigare il sovraccarico del modello di bozza si sono principalmente basati su euristiche e generalmente non sono riusciti a eguagliare la qualità dei modelli linguistici di bozza. Per affrontare queste sfide, proponiamo DuoDecoding, un approccio innovativo che impiega strategicamente i modelli di bozza e target rispettivamente su CPU e GPU, consentendo il decoding parallelo preservando la qualità della bozza. Il nostro metodo incorpora un budget ottimale di bozza consapevole dell'hardware per minimizzare i tempi di inattività e utilizza la generazione dinamica di bozze multi-sequenza per migliorare la qualità della bozza. Esperimenti estesi su sette compiti dimostrano che DuoDecoding raggiunge un'accelerazione fino a 2,61x nella latenza di generazione, riducendo il TTFT all'83% rispetto al decoding speculativo convenzionale. Il codice è disponibile all'indirizzo https://github.com/KaiLv69/DuoDecoding.

English

Large language models (LLMs) exhibit exceptional performance across a wide range of tasks; however, their token-by-token autoregressive generation process significantly hinders inference speed. Speculative decoding presents a promising draft-then-verify framework that reduces generation latency while maintaining output distribution fidelity. Nevertheless, the draft model introduces additional computational overhead, becoming a performance bottleneck and increasing the time to first token (TTFT). Previous approaches to mitigate draft model overhead have primarily relied on heuristics and generally failed to match the quality of the draft language models. To address these challenges, we propose DuoDecoding, a novel approach that strategically deploys the draft and target models on the CPU and GPU respectively, enabling parallel decoding while preserving draft quality. Our method incorporates a hardware-aware optimal draft budget to minimize idle times and employs dynamic multi-sequence drafting to enhance draft quality. Extensive experiments across seven tasks show that DuoDecoding achieves up to 2.61x speedup in generation latency, while reducing TTFT to 83% of that in conventional speculative decoding. The Code is available at https://github.com/KaiLv69/DuoDecoding.

DuoDecoding: Decodifica Speculativa Eterogenea Consapevole dell'Hardware con Generazione Dinamica di Sequenze Multiple

DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting

Abstract

Support