Zum spekulativen Dekodieren für multimodale große Sprachmodelle
On Speculative Decoding for Multimodal Large Language Models
April 13, 2024
Autoren: Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
cs.AI
Zusammenfassung
Das Schließen mit Multimodalen Großen Sprachmodellen (MLLMs) ist aufgrund ihres großen Sprachmodell-Rückgrats, das unter einem Speicherbandbreitenengpass leidet und Token auto-regressiv generiert, langsam. In diesem Papier untersuchen wir die Anwendung des spekulativen Decodings zur Verbesserung der Inferenzeffizienz von MLLMs, speziell des LLaVA 7B-Modells. Wir zeigen, dass ein rein sprachliches Modell als gutes Entwurfsmodell für spekulatives Decoding mit LLaVA 7B dienen kann, wodurch die Notwendigkeit von Bild-Token und den zugehörigen Verarbeitungskomponenten des Entwurfsmodells umgangen wird. Unsere Experimente über drei verschiedene Aufgaben hinweg zeigen, dass spekulatives Decoding mit einem 115M-Parameter-Sprachmodell, das wir von Grund auf trainiert haben, eine speichergebundene Beschleunigung von bis zu 2,37-facher Geschwindigkeit erreichen kann. Zusätzlich stellen wir ein kompaktes LLaVA-Entwurfsmodell vor, das einen Bildadapter integriert, der geringfügige Leistungssteigerungen bei der Bildunterschriftenerstellung zeigt, während vergleichbare Ergebnisse in anderen Aufgaben beibehalten werden.
English
Inference with Multimodal Large Language Models (MLLMs) is slow due to their
large-language-model backbone which suffers from memory bandwidth bottleneck
and generates tokens auto-regressively. In this paper, we explore the
application of speculative decoding to enhance the inference efficiency of
MLLMs, specifically the LLaVA 7B model. We show that a language-only model can
serve as a good draft model for speculative decoding with LLaVA 7B, bypassing
the need for image tokens and their associated processing components from the
draft model. Our experiments across three different tasks show that speculative
decoding can achieve a memory-bound speedup of up to 2.37times using a 115M
parameter language model that we trained from scratch. Additionally, we
introduce a compact LLaVA draft model incorporating an image adapter, which
shows marginal performance gains in image captioning while maintaining
comparable results in other tasks.Summary
AI-Generated Summary