ChatPaper.aiChatPaper

Sobre la Decodificación Especulativa para Modelos de Lenguaje Multimodales de Gran Escala

On Speculative Decoding for Multimodal Large Language Models

April 13, 2024
Autores: Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
cs.AI

Resumen

La inferencia con Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) es lenta debido a su arquitectura basada en modelos de lenguaje grandes, que sufre de un cuello de botella en el ancho de banda de memoria y genera tokens de manera autorregresiva. En este artículo, exploramos la aplicación de decodificación especulativa para mejorar la eficiencia de inferencia de los MLLMs, específicamente el modelo LLaVA 7B. Demostramos que un modelo de lenguaje exclusivo puede servir como un buen modelo borrador para la decodificación especulativa con LLaVA 7B, evitando la necesidad de tokens de imagen y sus componentes de procesamiento asociados en el modelo borrador. Nuestros experimentos en tres tareas diferentes muestran que la decodificación especulativa puede lograr una aceleración limitada por la memoria de hasta 2.37 veces utilizando un modelo de lenguaje de 115M parámetros que entrenamos desde cero. Además, introducimos un modelo borrador compacto de LLaVA que incorpora un adaptador de imagen, el cual muestra mejoras marginales en la generación de descripciones de imágenes mientras mantiene resultados comparables en otras tareas.
English
Inference with Multimodal Large Language Models (MLLMs) is slow due to their large-language-model backbone which suffers from memory bandwidth bottleneck and generates tokens auto-regressively. In this paper, we explore the application of speculative decoding to enhance the inference efficiency of MLLMs, specifically the LLaVA 7B model. We show that a language-only model can serve as a good draft model for speculative decoding with LLaVA 7B, bypassing the need for image tokens and their associated processing components from the draft model. Our experiments across three different tasks show that speculative decoding can achieve a memory-bound speedup of up to 2.37times using a 115M parameter language model that we trained from scratch. Additionally, we introduce a compact LLaVA draft model incorporating an image adapter, which shows marginal performance gains in image captioning while maintaining comparable results in other tasks.

Summary

AI-Generated Summary

PDF132December 15, 2024