Sobre Decodificação Especulativa para Modelos de Linguagem Multimodais de Grande Escala
On Speculative Decoding for Multimodal Large Language Models
April 13, 2024
Autores: Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
cs.AI
Resumo
A inferência com Modelos de Linguagem Multimodais de Grande Escala (MLLMs) é lenta devido ao seu núcleo de modelo de linguagem de grande escala, que sofre com o gargalo de largura de banda de memória e gera tokens de forma autoregressiva. Neste artigo, exploramos a aplicação da decodificação especulativa para melhorar a eficiência da inferência de MLLMs, especificamente o modelo LLaVA 7B. Mostramos que um modelo de linguagem puro pode servir como um bom modelo de rascunho para a decodificação especulativa com o LLaVA 7B, dispensando a necessidade de tokens de imagem e seus componentes de processamento associados no modelo de rascunho. Nossos experimentos em três tarefas diferentes mostram que a decodificação especulativa pode alcançar um aumento de velocidade limitado pela memória de até 2,37 vezes usando um modelo de linguagem de 115M de parâmetros que treinamos do zero. Além disso, introduzimos um modelo de rascunho compacto do LLaVA que incorpora um adaptador de imagem, o qual mostra ganhos marginais de desempenho na tarefa de legendagem de imagens, mantendo resultados comparáveis em outras tarefas.
English
Inference with Multimodal Large Language Models (MLLMs) is slow due to their
large-language-model backbone which suffers from memory bandwidth bottleneck
and generates tokens auto-regressively. In this paper, we explore the
application of speculative decoding to enhance the inference efficiency of
MLLMs, specifically the LLaVA 7B model. We show that a language-only model can
serve as a good draft model for speculative decoding with LLaVA 7B, bypassing
the need for image tokens and their associated processing components from the
draft model. Our experiments across three different tasks show that speculative
decoding can achieve a memory-bound speedup of up to 2.37times using a 115M
parameter language model that we trained from scratch. Additionally, we
introduce a compact LLaVA draft model incorporating an image adapter, which
shows marginal performance gains in image captioning while maintaining
comparable results in other tasks.