ChatPaper.aiChatPaper

Streaming Especulativo: Inferência Rápida de LLMs sem Modelos Auxiliares

Speculative Streaming: Fast LLM Inference without Auxiliary Models

February 16, 2024
Autores: Nikhil Bhendawade, Irina Belousova, Qichen Fu, Henry Mason, Mohammad Rastegari, Mahyar Najibi
cs.AI

Resumo

A decodificação especulativa é uma técnica proeminente para acelerar a inferência de um grande modelo de linguagem alvo com base nas previsões de um modelo auxiliar de rascunho. Embora eficaz, em cenários específicos de aplicação, ela frequentemente envolve o ajuste fino tanto do modelo de rascunho quanto do modelo alvo para alcançar altas taxas de aceitação. À medida que o número de tarefas subsequentes aumenta, esses modelos de rascunho adicionam uma complexidade significativa aos sistemas de inferência. Propomos o Speculative Streaming, um método de decodificação especulativa de modelo único que integra a criação de rascunhos ao modelo alvo, alterando o objetivo de ajuste fino da previsão do próximo token para a previsão de n-gramas futuros. O Speculative Streaming acelera a decodificação em 1,8 a 3,1 vezes em um conjunto diversificado de tarefas, como Sumarização, Consultas Estruturadas e Representação de Significado, sem sacrificar a qualidade da geração. Além disso, o Speculative Streaming é eficiente em termos de parâmetros. Ele alcança acelerações equivalentes ou superiores às arquiteturas do estilo Medusa, enquanto utiliza aproximadamente 10.000 vezes menos parâmetros extras, tornando-o bem adequado para dispositivos com recursos limitados.
English
Speculative decoding is a prominent technique to speed up the inference of a large target language model based on predictions of an auxiliary draft model. While effective, in application-specific settings, it often involves fine-tuning both draft and target models to achieve high acceptance rates. As the number of downstream tasks grows, these draft models add significant complexity to inference systems. We propose Speculative Streaming, a single-model speculative decoding method that fuses drafting into the target model by changing the fine-tuning objective from next token prediction to future n-gram prediction. Speculative Streaming speeds up decoding by 1.8 - 3.1X in a diverse set of tasks, such as Summarization, Structured Queries, and Meaning Representation, without sacrificing generation quality. Additionally, Speculative Streaming is parameter-efficient. It achieves on-par/higher speed-ups than Medusa-style architectures while using ~10000X fewer extra parameters, making it well-suited for resource-constrained devices.
PDF433December 15, 2024