Modèles Multimodaux Matriochka
Matryoshka Multimodal Models
May 27, 2024
Auteurs: Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee
cs.AI
Résumé
Les grands modèles multimodaux (LMMs) tels que LLaVA ont démontré des performances solides dans le raisonnement visio-linguistique. Ces modèles intègrent d'abord les images dans un nombre fixe et élevé de tokens visuels, puis les alimentent dans un grand modèle de langage (LLM). Cependant, cette conception entraîne un nombre excessif de tokens pour des scénarios visuels denses, tels que les images et vidéos haute résolution, ce qui engendre une grande inefficacité. Bien que des méthodes d'élagage/fusion de tokens existent, elles produisent une sortie de longueur unique pour chaque image et n'offrent pas de flexibilité dans l'arbitrage entre densité d'information et efficacité. Inspirés par le concept des poupées russes, nous proposons M3 : Matryoshka Multimodal Models, qui apprend à représenter le contenu visuel sous forme d'ensembles imbriqués de tokens visuels capturant l'information à plusieurs niveaux de granularité, du plus grossier au plus fin. Notre approche offre plusieurs avantages uniques pour les LMMs : (1) On peut contrôler explicitement la granularité visuelle par instance de test lors de l'inférence, par exemple en ajustant le nombre de tokens utilisés pour représenter une image en fonction de la complexité ou simplicité anticipée du contenu ; (2) M3 fournit un cadre pour analyser la granularité nécessaire pour les jeux de données existants, où nous constatons que les benchmarks de type COCO n'ont besoin que d'environ ~9 tokens visuels pour obtenir une précision similaire à celle obtenue avec les 576 tokens ; (3) Notre approche offre une base pour explorer le meilleur compromis entre performance et longueur des tokens visuels au niveau de l'échantillon, où notre investigation révèle qu'un grand écart existe entre la borne supérieure oracle et les représentations à échelle fixe actuelles.
English
Large Multimodal Models (LMMs) such as LLaVA have shown strong performance in
visual-linguistic reasoning. These models first embed images into a fixed large
number of visual tokens and then feed them into a Large Language Model (LLM).
However, this design causes an excessive number of tokens for dense visual
scenarios such as high-resolution images and videos, leading to great
inefficiency. While token pruning/merging methods do exist, they produce a
single length output for each image and do not afford flexibility in trading
off information density v.s. efficiency. Inspired by the concept of Matryoshka
Dolls, we propose M3: Matryoshka Multimodal Models, which learns to represent
visual content as nested sets of visual tokens that capture information across
multiple coarse-to-fine granularities. Our approach offers several unique
benefits for LMMs: (1) One can explicitly control the visual granularity per
test instance during inference, e.g. , adjusting the number of tokens used to
represent an image based on the anticipated complexity or simplicity of the
content; (2) M3 provides a framework for analyzing the granularity needed for
existing datasets, where we find that COCO-style benchmarks only need around ~9
visual tokens to obtain accuracy similar to that of using all 576 tokens; (3)
Our approach provides a foundation to explore the best trade-off between
performance and visual token length at sample level, where our investigation
reveals that a large gap exists between the oracle upper bound and current
fixed-scale representations.Summary
AI-Generated Summary