Мультимодельные модели Матрёшка
Matryoshka Multimodal Models
May 27, 2024
Авторы: Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee
cs.AI
Аннотация
Большие мультимодальные модели (LMM), такие как LLaVA, показали высокую производительность в визуально-лингвистическом рассуждении. Эти модели сначала встраивают изображения в фиксированное большое количество визуальных токенов, а затем передают их в большую языковую модель (LLM). Однако такое конструирование приводит к избыточному количеству токенов для плотных визуальных сценариев, таких как изображения высокого разрешения и видео, что приводит к значительной неэффективности. Хотя существуют методы обрезки/слияния токенов, они генерируют один выход фиксированной длины для каждого изображения и не обеспечивают гибкости в балансировке плотности информации и эффективности. Вдохновленные концепцией матрешек, мы предлагаем M3: Мультимодальные модели Матрешка, которые учатся представлять визуальное содержимое вложенными наборами визуальных токенов, охватывающих информацию на нескольких грубых и тонких уровнях детализации. Наш подход предлагает несколько уникальных преимуществ для LMM: (1) Можно явно контролировать визуальную детализацию для каждого тестового экземпляра во время вывода, например, изменяя количество токенов, используемых для представления изображения, в зависимости от предполагаемой сложности или простоты содержимого; (2) M3 предоставляет фреймворк для анализа необходимой детализации для существующих наборов данных, где мы обнаружили, что для бенчмарков в стиле COCO достаточно около ~9 визуальных токенов для достижения точности, сравнимой с использованием всех 576 токенов; (3) Наш подход обеспечивает основу для исследования оптимального баланса между производительностью и длиной визуальных токенов на уровне образца, где наше исследование показывает, что существует значительный разрыв между оракульной верхней границей и текущими представлениями фиксированного масштаба.
English
Large Multimodal Models (LMMs) such as LLaVA have shown strong performance in
visual-linguistic reasoning. These models first embed images into a fixed large
number of visual tokens and then feed them into a Large Language Model (LLM).
However, this design causes an excessive number of tokens for dense visual
scenarios such as high-resolution images and videos, leading to great
inefficiency. While token pruning/merging methods do exist, they produce a
single length output for each image and do not afford flexibility in trading
off information density v.s. efficiency. Inspired by the concept of Matryoshka
Dolls, we propose M3: Matryoshka Multimodal Models, which learns to represent
visual content as nested sets of visual tokens that capture information across
multiple coarse-to-fine granularities. Our approach offers several unique
benefits for LMMs: (1) One can explicitly control the visual granularity per
test instance during inference, e.g. , adjusting the number of tokens used to
represent an image based on the anticipated complexity or simplicity of the
content; (2) M3 provides a framework for analyzing the granularity needed for
existing datasets, where we find that COCO-style benchmarks only need around ~9
visual tokens to obtain accuracy similar to that of using all 576 tokens; (3)
Our approach provides a foundation to explore the best trade-off between
performance and visual token length at sample level, where our investigation
reveals that a large gap exists between the oracle upper bound and current
fixed-scale representations.Summary
AI-Generated Summary