DuoDecoding: Decodifica Speculativa Eterogenea Consapevole dell'Hardware con Generazione Dinamica di Sequenze Multiple
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting
March 2, 2025
Autori: Kai Lv, Honglin Guo, Qipeng Guo, Xipeng Qiu
cs.AI
Abstract
I grandi modelli linguistici (LLM) dimostrano prestazioni eccezionali in un'ampia gamma di compiti; tuttavia, il loro processo di generazione autoregressiva token per token riduce significativamente la velocità di inferenza. Il decoding speculativo rappresenta un promettente framework di bozza-then-verifica che riduce la latenza di generazione mantenendo la fedeltà della distribuzione dell'output. Ciononostante, il modello di bozza introduce un sovraccarico computazionale aggiuntivo, diventando un collo di bottiglia delle prestazioni e aumentando il tempo al primo token (TTFT). Gli approcci precedenti per mitigare il sovraccarico del modello di bozza si sono principalmente basati su euristiche e generalmente non sono riusciti a eguagliare la qualità dei modelli linguistici di bozza. Per affrontare queste sfide, proponiamo DuoDecoding, un approccio innovativo che impiega strategicamente i modelli di bozza e target rispettivamente su CPU e GPU, consentendo il decoding parallelo preservando la qualità della bozza. Il nostro metodo incorpora un budget ottimale di bozza consapevole dell'hardware per minimizzare i tempi di inattività e utilizza la generazione dinamica di bozze multi-sequenza per migliorare la qualità della bozza. Esperimenti estesi su sette compiti dimostrano che DuoDecoding raggiunge un'accelerazione fino a 2,61x nella latenza di generazione, riducendo il TTFT all'83% rispetto al decoding speculativo convenzionale. Il codice è disponibile all'indirizzo https://github.com/KaiLv69/DuoDecoding.
English
Large language models (LLMs) exhibit exceptional performance across a wide
range of tasks; however, their token-by-token autoregressive generation process
significantly hinders inference speed. Speculative decoding presents a
promising draft-then-verify framework that reduces generation latency while
maintaining output distribution fidelity. Nevertheless, the draft model
introduces additional computational overhead, becoming a performance bottleneck
and increasing the time to first token (TTFT). Previous approaches to mitigate
draft model overhead have primarily relied on heuristics and generally failed
to match the quality of the draft language models. To address these challenges,
we propose DuoDecoding, a novel approach that strategically deploys the draft
and target models on the CPU and GPU respectively, enabling parallel decoding
while preserving draft quality. Our method incorporates a hardware-aware
optimal draft budget to minimize idle times and employs dynamic multi-sequence
drafting to enhance draft quality. Extensive experiments across seven tasks
show that DuoDecoding achieves up to 2.61x speedup in generation latency, while
reducing TTFT to 83% of that in conventional speculative decoding. The Code is
available at https://github.com/KaiLv69/DuoDecoding.Summary
AI-Generated Summary