Sobre la Decodificación Especulativa para Modelos de Lenguaje Multimodales de Gran Escala
On Speculative Decoding for Multimodal Large Language Models
April 13, 2024
Autores: Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
cs.AI
Resumen
La inferencia con Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) es lenta debido a su arquitectura basada en modelos de lenguaje grandes, que sufre de un cuello de botella en el ancho de banda de memoria y genera tokens de manera autorregresiva. En este artículo, exploramos la aplicación de decodificación especulativa para mejorar la eficiencia de inferencia de los MLLMs, específicamente el modelo LLaVA 7B. Demostramos que un modelo de lenguaje exclusivo puede servir como un buen modelo borrador para la decodificación especulativa con LLaVA 7B, evitando la necesidad de tokens de imagen y sus componentes de procesamiento asociados en el modelo borrador. Nuestros experimentos en tres tareas diferentes muestran que la decodificación especulativa puede lograr una aceleración limitada por la memoria de hasta 2.37 veces utilizando un modelo de lenguaje de 115M parámetros que entrenamos desde cero. Además, introducimos un modelo borrador compacto de LLaVA que incorpora un adaptador de imagen, el cual muestra mejoras marginales en la generación de descripciones de imágenes mientras mantiene resultados comparables en otras tareas.
English
Inference with Multimodal Large Language Models (MLLMs) is slow due to their
large-language-model backbone which suffers from memory bandwidth bottleneck
and generates tokens auto-regressively. In this paper, we explore the
application of speculative decoding to enhance the inference efficiency of
MLLMs, specifically the LLaVA 7B model. We show that a language-only model can
serve as a good draft model for speculative decoding with LLaVA 7B, bypassing
the need for image tokens and their associated processing components from the
draft model. Our experiments across three different tasks show that speculative
decoding can achieve a memory-bound speedup of up to 2.37times using a 115M
parameter language model that we trained from scratch. Additionally, we
introduce a compact LLaVA draft model incorporating an image adapter, which
shows marginal performance gains in image captioning while maintaining
comparable results in other tasks.Summary
AI-Generated Summary