Matryoshka Multimodale Modellen
Matryoshka Multimodal Models
May 27, 2024
Auteurs: Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee
cs.AI
Samenvatting
Grote Multimodale Modellen (LMMs) zoals LLaVA hebben sterke prestaties getoond in visueel-linguïstisch redeneren. Deze modellen embedden eerst afbeeldingen in een vast, groot aantal visuele tokens en voeren deze vervolgens in een Groot Taalmodel (LLM) in. Dit ontwerp resulteert echter in een excessief aantal tokens voor dichte visuele scenario's zoals hoogresolutie afbeeldingen en video's, wat tot grote inefficiëntie leidt. Hoewel methoden voor token pruning/merging bestaan, produceren deze een enkele lengte-uitvoer voor elke afbeelding en bieden ze geen flexibiliteit in het afwegen van informatiedichtheid tegen efficiëntie. Geïnspireerd door het concept van Matroesjka-poppetjes, stellen we M3 voor: Matroesjka Multimodale Modellen, die leren om visuele inhoud te representeren als geneste sets van visuele tokens die informatie vastleggen over meerdere grof-naar-fijn granulariteiten. Onze aanpak biedt verschillende unieke voordelen voor LMMs: (1) Men kan tijdens de inferentie expliciet de visuele granulariteit per testgeval bepalen, bijvoorbeeld door het aantal tokens dat gebruikt wordt om een afbeelding te representeren aan te passen op basis van de verwachte complexiteit of eenvoud van de inhoud; (2) M3 biedt een raamwerk voor het analyseren van de benodigde granulariteit voor bestaande datasets, waar we ontdekken dat COCO-stijl benchmarks slechts ongeveer ~9 visuele tokens nodig hebben om een nauwkeurigheid te bereiken die vergelijkbaar is met het gebruik van alle 576 tokens; (3) Onze aanpak biedt een basis om de beste afweging tussen prestaties en visuele tokenlengte op monsterniveau te verkennen, waar ons onderzoek aantoont dat er een grote kloof bestaat tussen de orakel-upperbound en huidige vaste-schaal representaties.
English
Large Multimodal Models (LMMs) such as LLaVA have shown strong performance in
visual-linguistic reasoning. These models first embed images into a fixed large
number of visual tokens and then feed them into a Large Language Model (LLM).
However, this design causes an excessive number of tokens for dense visual
scenarios such as high-resolution images and videos, leading to great
inefficiency. While token pruning/merging methods do exist, they produce a
single length output for each image and do not afford flexibility in trading
off information density v.s. efficiency. Inspired by the concept of Matryoshka
Dolls, we propose M3: Matryoshka Multimodal Models, which learns to represent
visual content as nested sets of visual tokens that capture information across
multiple coarse-to-fine granularities. Our approach offers several unique
benefits for LMMs: (1) One can explicitly control the visual granularity per
test instance during inference, e.g. , adjusting the number of tokens used to
represent an image based on the anticipated complexity or simplicity of the
content; (2) M3 provides a framework for analyzing the granularity needed for
existing datasets, where we find that COCO-style benchmarks only need around ~9
visual tokens to obtain accuracy similar to that of using all 576 tokens; (3)
Our approach provides a foundation to explore the best trade-off between
performance and visual token length at sample level, where our investigation
reveals that a large gap exists between the oracle upper bound and current
fixed-scale representations.