Matrjoschka Multimodale Modelle
Matryoshka Multimodal Models
May 27, 2024
papers.authors: Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee
cs.AI
papers.abstract
Große multimodale Modelle (LMMs) wie LLaVA haben eine starke Leistung bei visuell-linguistischer Schlussfolgerung gezeigt. Diese Modelle betten zunächst Bilder in eine feste Anzahl von visuellen Tokens ein und geben sie dann an ein großes Sprachmodell (LLM) weiter. Allerdings führt dieses Design bei dichten visuellen Szenarien wie hochauflösenden Bildern und Videos zu einer übermäßigen Anzahl von Tokens, was zu großer Ineffizienz führt. Obwohl Methoden zum Beschneiden/Verschmelzen von Tokens existieren, liefern sie eine einzige Ausgabelänge für jedes Bild und bieten keine Flexibilität beim Abwägen von Informationsdichte gegen Effizienz. Inspiriert vom Konzept der Matrjoschka-Puppen schlagen wir M3 vor: Matrjoschka-multimodale Modelle, die lernen, visuelle Inhalte als verschachtelte Sätze von visuellen Tokens darzustellen, die Informationen über mehrere grob-zu-fein Granularitäten hinweg erfassen. Unser Ansatz bietet mehrere einzigartige Vorteile für LMMs: (1) Man kann die visuelle Granularität pro Testinstanz während der Inferenz explizit steuern, z. B. die Anzahl der verwendeten Tokens zur Darstellung eines Bildes basierend auf der erwarteten Komplexität oder Einfachheit des Inhalts anpassen; (2) M3 bietet ein Rahmenwerk zur Analyse der für vorhandene Datensätze erforderlichen Granularität, wobei wir feststellen, dass COCO-ähnliche Benchmarks nur etwa ~9 visuelle Tokens benötigen, um eine Genauigkeit zu erzielen, die der Verwendung aller 576 Tokens ähnlich ist; (3) Unser Ansatz bietet eine Grundlage, um den besten Kompromiss zwischen Leistung und visueller Token-Länge auf der Stichprobenebene zu untersuchen, wobei unsere Untersuchung zeigt, dass eine große Kluft zwischen der Orakel-Obergrenze und den aktuellen festen Skalendarstellungen besteht.
English
Large Multimodal Models (LMMs) such as LLaVA have shown strong performance in
visual-linguistic reasoning. These models first embed images into a fixed large
number of visual tokens and then feed them into a Large Language Model (LLM).
However, this design causes an excessive number of tokens for dense visual
scenarios such as high-resolution images and videos, leading to great
inefficiency. While token pruning/merging methods do exist, they produce a
single length output for each image and do not afford flexibility in trading
off information density v.s. efficiency. Inspired by the concept of Matryoshka
Dolls, we propose M3: Matryoshka Multimodal Models, which learns to represent
visual content as nested sets of visual tokens that capture information across
multiple coarse-to-fine granularities. Our approach offers several unique
benefits for LMMs: (1) One can explicitly control the visual granularity per
test instance during inference, e.g. , adjusting the number of tokens used to
represent an image based on the anticipated complexity or simplicity of the
content; (2) M3 provides a framework for analyzing the granularity needed for
existing datasets, where we find that COCO-style benchmarks only need around ~9
visual tokens to obtain accuracy similar to that of using all 576 tokens; (3)
Our approach provides a foundation to explore the best trade-off between
performance and visual token length at sample level, where our investigation
reveals that a large gap exists between the oracle upper bound and current
fixed-scale representations.