ChatPaper.aiChatPaper

Over Speculatieve Decodering voor Multimodale Grote Taalmodellen

On Speculative Decoding for Multimodal Large Language Models

April 13, 2024
Auteurs: Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
cs.AI

Samenvatting

Inferentie met Multimodale Grote Taalmodellen (MLLMs) is traag vanwege hun grote-taalmodel-backbone, die te lijden heeft onder een geheugenbandbreedteknelpunt en tokens auto-regressief genereert. In dit artikel onderzoeken we de toepassing van speculatieve decodering om de inferentie-efficiëntie van MLLMs te verbeteren, specifiek het LLaVA 7B-model. We tonen aan dat een taal-only model kan dienen als een goed conceptmodel voor speculatieve decodering met LLaVA 7B, waardoor de noodzaak voor beeldtokens en hun bijbehorende verwerkingscomponenten in het conceptmodel wordt omzeild. Onze experimenten over drie verschillende taken tonen aan dat speculatieve decodering een geheugengebonden snelheidswinst van tot 2,37 keer kan bereiken met behulp van een 115M parameter taalmodel dat we vanaf nul hebben getraind. Daarnaast introduceren we een compact LLaVA-conceptmodel met een beeldadapter, dat marginale prestatieverbeteringen laat zien in beeldbeschrijving terwijl het vergelijkbare resultaten behoudt in andere taken.
English
Inference with Multimodal Large Language Models (MLLMs) is slow due to their large-language-model backbone which suffers from memory bandwidth bottleneck and generates tokens auto-regressively. In this paper, we explore the application of speculative decoding to enhance the inference efficiency of MLLMs, specifically the LLaVA 7B model. We show that a language-only model can serve as a good draft model for speculative decoding with LLaVA 7B, bypassing the need for image tokens and their associated processing components from the draft model. Our experiments across three different tasks show that speculative decoding can achieve a memory-bound speedup of up to 2.37times using a 115M parameter language model that we trained from scratch. Additionally, we introduce a compact LLaVA draft model incorporating an image adapter, which shows marginal performance gains in image captioning while maintaining comparable results in other tasks.
PDF132February 8, 2026