Streaming Speculativo: Inferenza Rapida di LLM senza Modelli Ausiliari
Speculative Streaming: Fast LLM Inference without Auxiliary Models
February 16, 2024
Autori: Nikhil Bhendawade, Irina Belousova, Qichen Fu, Henry Mason, Mohammad Rastegari, Mahyar Najibi
cs.AI
Abstract
La decodifica speculativa è una tecnica prominente per accelerare l'inferenza di un grande modello linguistico target basandosi sulle previsioni di un modello draft ausiliario. Sebbene efficace, in contesti specifici per applicazioni, spesso richiede il fine-tuning sia del modello draft che di quello target per ottenere alti tassi di accettazione. Man mano che il numero di task downstream aumenta, questi modelli draft aggiungono una complessità significativa ai sistemi di inferenza. Proponiamo Speculative Streaming, un metodo di decodifica speculativa a singolo modello che integra la fase di draft nel modello target modificando l'obiettivo di fine-tuning dalla previsione del token successivo alla previsione di n-grammi futuri. Speculative Streaming accelera la decodifica di 1,8 - 3,1X in un insieme diversificato di task, come Riassunto, Query Strutturate e Rappresentazione del Significato, senza sacrificare la qualità della generazione. Inoltre, Speculative Streaming è efficiente in termini di parametri. Raggiunge velocità pari/superiori rispetto alle architetture in stile Medusa utilizzando circa 10000X parametri aggiuntivi in meno, rendendolo particolarmente adatto per dispositivi con risorse limitate.
English
Speculative decoding is a prominent technique to speed up the inference of a
large target language model based on predictions of an auxiliary draft model.
While effective, in application-specific settings, it often involves
fine-tuning both draft and target models to achieve high acceptance rates. As
the number of downstream tasks grows, these draft models add significant
complexity to inference systems. We propose Speculative Streaming, a
single-model speculative decoding method that fuses drafting into the target
model by changing the fine-tuning objective from next token prediction to
future n-gram prediction. Speculative Streaming speeds up decoding by 1.8 -
3.1X in a diverse set of tasks, such as Summarization, Structured Queries, and
Meaning Representation, without sacrificing generation quality. Additionally,
Speculative Streaming is parameter-efficient. It achieves on-par/higher
speed-ups than Medusa-style architectures while using ~10000X fewer extra
parameters, making it well-suited for resource-constrained devices.