ChatPaper.aiChatPaper

Modelli Multimodali Matrioska

Matryoshka Multimodal Models

May 27, 2024
Autori: Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee
cs.AI

Abstract

I grandi modelli multimodali (Large Multimodal Models, LMMs) come LLaVA hanno dimostrato prestazioni solide nel ragionamento visivo-linguistico. Questi modelli prima incorporano le immagini in un numero fisso e ampio di token visivi, per poi alimentarli in un grande modello linguistico (Large Language Model, LLM). Tuttavia, questo design comporta un numero eccessivo di token per scenari visivi densi come immagini ad alta risoluzione e video, portando a una grande inefficienza. Sebbene esistano metodi di pruning/fusione dei token, questi producono un'output di lunghezza singola per ogni immagine e non offrono flessibilità nel bilanciare densità informativa ed efficienza. Ispirati dal concetto delle Matrioske, proponiamo M3: Matryoshka Multimodal Models, che impara a rappresentare il contenuto visivo come insiemi annidati di token visivi che catturano informazioni attraverso molteplici granularità, dal grossolano al fine. Il nostro approccio offre diversi vantaggi unici per gli LMMs: (1) Si può controllare esplicitamente la granularità visiva per ogni istanza di test durante l'inferenza, ad esempio, regolando il numero di token utilizzati per rappresentare un'immagine in base alla complessità o semplicità prevista del contenuto; (2) M3 fornisce un framework per analizzare la granularità necessaria per i dataset esistenti, dove scopriamo che benchmark di tipo COCO necessitano solo di circa ~9 token visivi per ottenere un'accuratezza simile a quella ottenuta utilizzando tutti i 576 token; (3) Il nostro approccio fornisce una base per esplorare il miglior compromesso tra prestazioni e lunghezza dei token visivi a livello di campione, dove la nostra indagine rivela che esiste un ampio divario tra il limite superiore teorico (oracle upper bound) e le rappresentazioni a scala fissa attuali.
English
Large Multimodal Models (LMMs) such as LLaVA have shown strong performance in visual-linguistic reasoning. These models first embed images into a fixed large number of visual tokens and then feed them into a Large Language Model (LLM). However, this design causes an excessive number of tokens for dense visual scenarios such as high-resolution images and videos, leading to great inefficiency. While token pruning/merging methods do exist, they produce a single length output for each image and do not afford flexibility in trading off information density v.s. efficiency. Inspired by the concept of Matryoshka Dolls, we propose M3: Matryoshka Multimodal Models, which learns to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the number of tokens used to represent an image based on the anticipated complexity or simplicity of the content; (2) M3 provides a framework for analyzing the granularity needed for existing datasets, where we find that COCO-style benchmarks only need around ~9 visual tokens to obtain accuracy similar to that of using all 576 tokens; (3) Our approach provides a foundation to explore the best trade-off between performance and visual token length at sample level, where our investigation reveals that a large gap exists between the oracle upper bound and current fixed-scale representations.
PDF343February 8, 2026