Modelos Multimodales Matryoshka
Matryoshka Multimodal Models
May 27, 2024
Autores: Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee
cs.AI
Resumen
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) como LLaVA han demostrado un rendimiento sólido en el razonamiento visual-lingüístico. Estos modelos primero incrustan imágenes en un número fijo y grande de tokens visuales, que luego se alimentan a un Modelo de Lenguaje Grande (LLM). Sin embargo, este diseño genera un número excesivo de tokens en escenarios visuales densos, como imágenes y videos de alta resolución, lo que conlleva una gran ineficiencia. Aunque existen métodos de poda/fusión de tokens, estos producen una salida de longitud única para cada imagen y no ofrecen flexibilidad para equilibrar la densidad de información frente a la eficiencia. Inspirados por el concepto de las Muñecas Matrioska, proponemos M3: Modelos Multimodales Matrioska, que aprende a representar contenido visual como conjuntos anidados de tokens visuales que capturan información en múltiples niveles de granularidad, de lo general a lo detallado. Nuestro enfoque ofrece varios beneficios únicos para los LMMs: (1) Se puede controlar explícitamente la granularidad visual por instancia durante la inferencia, por ejemplo, ajustando el número de tokens utilizados para representar una imagen según la complejidad o simplicidad anticipada del contenido; (2) M3 proporciona un marco para analizar la granularidad necesaria en conjuntos de datos existentes, donde encontramos que los benchmarks de estilo COCO solo necesitan alrededor de ~9 tokens visuales para obtener una precisión similar a la de usar los 576 tokens; (3) Nuestro enfoque sienta las bases para explorar el mejor equilibrio entre rendimiento y longitud de tokens visuales a nivel de muestra, donde nuestra investigación revela que existe una gran brecha entre el límite superior teórico y las representaciones de escala fija actuales.
English
Large Multimodal Models (LMMs) such as LLaVA have shown strong performance in
visual-linguistic reasoning. These models first embed images into a fixed large
number of visual tokens and then feed them into a Large Language Model (LLM).
However, this design causes an excessive number of tokens for dense visual
scenarios such as high-resolution images and videos, leading to great
inefficiency. While token pruning/merging methods do exist, they produce a
single length output for each image and do not afford flexibility in trading
off information density v.s. efficiency. Inspired by the concept of Matryoshka
Dolls, we propose M3: Matryoshka Multimodal Models, which learns to represent
visual content as nested sets of visual tokens that capture information across
multiple coarse-to-fine granularities. Our approach offers several unique
benefits for LMMs: (1) One can explicitly control the visual granularity per
test instance during inference, e.g. , adjusting the number of tokens used to
represent an image based on the anticipated complexity or simplicity of the
content; (2) M3 provides a framework for analyzing the granularity needed for
existing datasets, where we find that COCO-style benchmarks only need around ~9
visual tokens to obtain accuracy similar to that of using all 576 tokens; (3)
Our approach provides a foundation to explore the best trade-off between
performance and visual token length at sample level, where our investigation
reveals that a large gap exists between the oracle upper bound and current
fixed-scale representations.Summary
AI-Generated Summary