Over Speculatieve Decodering voor Multimodale Grote Taalmodellen
On Speculative Decoding for Multimodal Large Language Models
April 13, 2024
Auteurs: Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
cs.AI
Samenvatting
Inferentie met Multimodale Grote Taalmodellen (MLLMs) is traag vanwege hun
grote-taalmodel-backbone, die te lijden heeft onder een geheugenbandbreedteknelpunt
en tokens auto-regressief genereert. In dit artikel onderzoeken we de
toepassing van speculatieve decodering om de inferentie-efficiëntie van
MLLMs te verbeteren, specifiek het LLaVA 7B-model. We tonen aan dat een
taal-only model kan dienen als een goed conceptmodel voor speculatieve decodering
met LLaVA 7B, waardoor de noodzaak voor beeldtokens en hun bijbehorende
verwerkingscomponenten in het conceptmodel wordt omzeild. Onze experimenten
over drie verschillende taken tonen aan dat speculatieve decodering een
geheugengebonden snelheidswinst van tot 2,37 keer kan bereiken met behulp van een
115M parameter taalmodel dat we vanaf nul hebben getraind. Daarnaast introduceren
we een compact LLaVA-conceptmodel met een beeldadapter, dat marginale
prestatieverbeteringen laat zien in beeldbeschrijving terwijl het vergelijkbare
resultaten behoudt in andere taken.
English
Inference with Multimodal Large Language Models (MLLMs) is slow due to their
large-language-model backbone which suffers from memory bandwidth bottleneck
and generates tokens auto-regressively. In this paper, we explore the
application of speculative decoding to enhance the inference efficiency of
MLLMs, specifically the LLaVA 7B model. We show that a language-only model can
serve as a good draft model for speculative decoding with LLaVA 7B, bypassing
the need for image tokens and their associated processing components from the
draft model. Our experiments across three different tasks show that speculative
decoding can achieve a memory-bound speedup of up to 2.37times using a 115M
parameter language model that we trained from scratch. Additionally, we
introduce a compact LLaVA draft model incorporating an image adapter, which
shows marginal performance gains in image captioning while maintaining
comparable results in other tasks.