Streaming Speculativo: Inferenza Rapida di LLM senza Modelli Ausiliari

Abstract

La decodifica speculativa è una tecnica prominente per accelerare l'inferenza di un grande modello linguistico target basandosi sulle previsioni di un modello draft ausiliario. Sebbene efficace, in contesti specifici per applicazioni, spesso richiede il fine-tuning sia del modello draft che di quello target per ottenere alti tassi di accettazione. Man mano che il numero di task downstream aumenta, questi modelli draft aggiungono una complessità significativa ai sistemi di inferenza. Proponiamo Speculative Streaming, un metodo di decodifica speculativa a singolo modello che integra la fase di draft nel modello target modificando l'obiettivo di fine-tuning dalla previsione del token successivo alla previsione di n-grammi futuri. Speculative Streaming accelera la decodifica di 1,8 - 3,1X in un insieme diversificato di task, come Riassunto, Query Strutturate e Rappresentazione del Significato, senza sacrificare la qualità della generazione. Inoltre, Speculative Streaming è efficiente in termini di parametri. Raggiunge velocità pari/superiori rispetto alle architetture in stile Medusa utilizzando circa 10000X parametri aggiuntivi in meno, rendendolo particolarmente adatto per dispositivi con risorse limitate.

English

Speculative decoding is a prominent technique to speed up the inference of a large target language model based on predictions of an auxiliary draft model. While effective, in application-specific settings, it often involves fine-tuning both draft and target models to achieve high acceptance rates. As the number of downstream tasks grows, these draft models add significant complexity to inference systems. We propose Speculative Streaming, a single-model speculative decoding method that fuses drafting into the target model by changing the fine-tuning objective from next token prediction to future n-gram prediction. Speculative Streaming speeds up decoding by 1.8 - 3.1X in a diverse set of tasks, such as Summarization, Structured Queries, and Meaning Representation, without sacrificing generation quality. Additionally, Speculative Streaming is parameter-efficient. It achieves on-par/higher speed-ups than Medusa-style architectures while using ~10000X fewer extra parameters, making it well-suited for resource-constrained devices.

Streaming Speculativo: Inferenza Rapida di LLM senza Modelli Ausiliari

Speculative Streaming: Fast LLM Inference without Auxiliary Models

Abstract

Support