ChatPaper.aiChatPaper

Sur le décodage spéculatif pour les modèles de langage multimodaux de grande échelle

On Speculative Decoding for Multimodal Large Language Models

April 13, 2024
Auteurs: Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
cs.AI

Résumé

L'inférence avec les modèles de langage multimodaux de grande taille (MLLMs) est lente en raison de leur architecture de modèle de langage volumineux, qui souffre d'un goulot d'étranglement lié à la bande passante mémoire et génère des tokens de manière auto-régressive. Dans cet article, nous explorons l'application du décodage spéculatif pour améliorer l'efficacité de l'inférence des MLLMs, en particulier le modèle LLaVA 7B. Nous montrons qu'un modèle de langage uniquement textuel peut servir de bon modèle d'ébauche pour le décodage spéculatif avec LLaVA 7B, évitant ainsi la nécessité des tokens d'image et des composants de traitement associés dans le modèle d'ébauche. Nos expériences sur trois tâches différentes montrent que le décodage spéculatif peut atteindre une accélération limitée par la mémoire allant jusqu'à 2,37 fois en utilisant un modèle de langage de 115 millions de paramètres que nous avons entraîné à partir de zéro. De plus, nous introduisons un modèle d'ébauche compact pour LLaVA intégrant un adaptateur d'image, qui montre des gains de performance marginaux en légendage d'images tout en maintenant des résultats comparables dans d'autres tâches.
English
Inference with Multimodal Large Language Models (MLLMs) is slow due to their large-language-model backbone which suffers from memory bandwidth bottleneck and generates tokens auto-regressively. In this paper, we explore the application of speculative decoding to enhance the inference efficiency of MLLMs, specifically the LLaVA 7B model. We show that a language-only model can serve as a good draft model for speculative decoding with LLaVA 7B, bypassing the need for image tokens and their associated processing components from the draft model. Our experiments across three different tasks show that speculative decoding can achieve a memory-bound speedup of up to 2.37times using a 115M parameter language model that we trained from scratch. Additionally, we introduce a compact LLaVA draft model incorporating an image adapter, which shows marginal performance gains in image captioning while maintaining comparable results in other tasks.

Summary

AI-Generated Summary

PDF132December 15, 2024