ChatPaper.aiChatPaper

Sobre Decodificação Especulativa para Modelos de Linguagem Multimodais de Grande Escala

On Speculative Decoding for Multimodal Large Language Models

April 13, 2024
Autores: Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
cs.AI

Resumo

A inferência com Modelos de Linguagem Multimodais de Grande Escala (MLLMs) é lenta devido ao seu núcleo de modelo de linguagem de grande escala, que sofre com o gargalo de largura de banda de memória e gera tokens de forma autoregressiva. Neste artigo, exploramos a aplicação da decodificação especulativa para melhorar a eficiência da inferência de MLLMs, especificamente o modelo LLaVA 7B. Mostramos que um modelo de linguagem puro pode servir como um bom modelo de rascunho para a decodificação especulativa com o LLaVA 7B, dispensando a necessidade de tokens de imagem e seus componentes de processamento associados no modelo de rascunho. Nossos experimentos em três tarefas diferentes mostram que a decodificação especulativa pode alcançar um aumento de velocidade limitado pela memória de até 2,37 vezes usando um modelo de linguagem de 115M de parâmetros que treinamos do zero. Além disso, introduzimos um modelo de rascunho compacto do LLaVA que incorpora um adaptador de imagem, o qual mostra ganhos marginais de desempenho na tarefa de legendagem de imagens, mantendo resultados comparáveis em outras tarefas.
English
Inference with Multimodal Large Language Models (MLLMs) is slow due to their large-language-model backbone which suffers from memory bandwidth bottleneck and generates tokens auto-regressively. In this paper, we explore the application of speculative decoding to enhance the inference efficiency of MLLMs, specifically the LLaVA 7B model. We show that a language-only model can serve as a good draft model for speculative decoding with LLaVA 7B, bypassing the need for image tokens and their associated processing components from the draft model. Our experiments across three different tasks show that speculative decoding can achieve a memory-bound speedup of up to 2.37times using a 115M parameter language model that we trained from scratch. Additionally, we introduce a compact LLaVA draft model incorporating an image adapter, which shows marginal performance gains in image captioning while maintaining comparable results in other tasks.
PDF132December 15, 2024