ChatPaper.aiChatPaper

Zum spekulativen Dekodieren für multimodale große Sprachmodelle

On Speculative Decoding for Multimodal Large Language Models

April 13, 2024
Autoren: Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
cs.AI

Zusammenfassung

Das Schließen mit Multimodalen Großen Sprachmodellen (MLLMs) ist aufgrund ihres großen Sprachmodell-Rückgrats, das unter einem Speicherbandbreitenengpass leidet und Token auto-regressiv generiert, langsam. In diesem Papier untersuchen wir die Anwendung des spekulativen Decodings zur Verbesserung der Inferenzeffizienz von MLLMs, speziell des LLaVA 7B-Modells. Wir zeigen, dass ein rein sprachliches Modell als gutes Entwurfsmodell für spekulatives Decoding mit LLaVA 7B dienen kann, wodurch die Notwendigkeit von Bild-Token und den zugehörigen Verarbeitungskomponenten des Entwurfsmodells umgangen wird. Unsere Experimente über drei verschiedene Aufgaben hinweg zeigen, dass spekulatives Decoding mit einem 115M-Parameter-Sprachmodell, das wir von Grund auf trainiert haben, eine speichergebundene Beschleunigung von bis zu 2,37-facher Geschwindigkeit erreichen kann. Zusätzlich stellen wir ein kompaktes LLaVA-Entwurfsmodell vor, das einen Bildadapter integriert, der geringfügige Leistungssteigerungen bei der Bildunterschriftenerstellung zeigt, während vergleichbare Ergebnisse in anderen Aufgaben beibehalten werden.
English
Inference with Multimodal Large Language Models (MLLMs) is slow due to their large-language-model backbone which suffers from memory bandwidth bottleneck and generates tokens auto-regressively. In this paper, we explore the application of speculative decoding to enhance the inference efficiency of MLLMs, specifically the LLaVA 7B model. We show that a language-only model can serve as a good draft model for speculative decoding with LLaVA 7B, bypassing the need for image tokens and their associated processing components from the draft model. Our experiments across three different tasks show that speculative decoding can achieve a memory-bound speedup of up to 2.37times using a 115M parameter language model that we trained from scratch. Additionally, we introduce a compact LLaVA draft model incorporating an image adapter, which shows marginal performance gains in image captioning while maintaining comparable results in other tasks.

Summary

AI-Generated Summary

PDF132December 15, 2024