Modelos Multimodais Matryoshka
Matryoshka Multimodal Models
May 27, 2024
Autores: Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee
cs.AI
Resumo
Modelos Multimodais de Grande Escala (LMMs), como o LLaVA, têm demonstrado um desempenho robusto no raciocínio visual-linguístico. Esses modelos primeiro incorporam imagens em um número fixo e grande de tokens visuais e, em seguida, os alimentam em um Modelo de Linguagem de Grande Escala (LLM). No entanto, esse design resulta em um número excessivo de tokens para cenários visuais densos, como imagens e vídeos de alta resolução, levando a uma grande ineficiência. Embora métodos de poda/fusão de tokens existam, eles produzem uma saída de comprimento único para cada imagem e não oferecem flexibilidade para equilibrar densidade de informação versus eficiência. Inspirados pelo conceito das Matryoshka Dolls, propomos o M3: Modelos Multimodais Matryoshka, que aprende a representar conteúdo visual como conjuntos aninhados de tokens visuais que capturam informações em múltiplas granularidades, do mais grosseiro ao mais refinado. Nossa abordagem oferece vários benefícios únicos para LMMs: (1) É possível controlar explicitamente a granularidade visual por instância de teste durante a inferência, por exemplo, ajustando o número de tokens usados para representar uma imagem com base na complexidade ou simplicidade antecipada do conteúdo; (2) O M3 fornece uma estrutura para analisar a granularidade necessária para conjuntos de dados existentes, onde descobrimos que benchmarks no estilo COCO precisam de apenas ~9 tokens visuais para obter uma precisão semelhante àquela alcançada com todos os 576 tokens; (3) Nossa abordagem fornece uma base para explorar o melhor equilíbrio entre desempenho e comprimento de tokens visuais no nível da amostra, onde nossa investigação revela que existe uma grande lacuna entre o limite superior oráculo e as representações de escala fixa atuais.
English
Large Multimodal Models (LMMs) such as LLaVA have shown strong performance in
visual-linguistic reasoning. These models first embed images into a fixed large
number of visual tokens and then feed them into a Large Language Model (LLM).
However, this design causes an excessive number of tokens for dense visual
scenarios such as high-resolution images and videos, leading to great
inefficiency. While token pruning/merging methods do exist, they produce a
single length output for each image and do not afford flexibility in trading
off information density v.s. efficiency. Inspired by the concept of Matryoshka
Dolls, we propose M3: Matryoshka Multimodal Models, which learns to represent
visual content as nested sets of visual tokens that capture information across
multiple coarse-to-fine granularities. Our approach offers several unique
benefits for LMMs: (1) One can explicitly control the visual granularity per
test instance during inference, e.g. , adjusting the number of tokens used to
represent an image based on the anticipated complexity or simplicity of the
content; (2) M3 provides a framework for analyzing the granularity needed for
existing datasets, where we find that COCO-style benchmarks only need around ~9
visual tokens to obtain accuracy similar to that of using all 576 tokens; (3)
Our approach provides a foundation to explore the best trade-off between
performance and visual token length at sample level, where our investigation
reveals that a large gap exists between the oracle upper bound and current
fixed-scale representations.