Honeybee: Локализованный проектор для мультимодальных больших языковых моделей
Honeybee: Locality-enhanced Projector for Multimodal LLM
December 11, 2023
Авторы: Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh
cs.AI
Аннотация
В мультимодальных больших языковых моделях (MLLMs) визуальный проектор играет ключевую роль, связывая предобученные визуальные кодировщики с языковыми моделями, что позволяет достичь глубокого понимания визуальной информации, одновременно используя мощные возможности языковых моделей. Несмотря на важность визуального проектора, он остается относительно малоизученным. В данном исследовании мы сначала выделяем два ключевых свойства проектора: (i) гибкость в управлении количеством визуальных токенов, что критически важно для общей эффективности MLLMs, и (ii) сохранение локального контекста из визуальных признаков, что необходимо для пространственного понимания. На основе этих выводов мы предлагаем новую конструкцию проектора, которая является одновременно гибкой и усиленной с точки зрения локальности, эффективно удовлетворяя двум желаемым свойствам. Кроме того, мы представляем комплексные стратегии для эффективного использования множественных и многоаспектных наборов инструктивных данных. В ходе обширных экспериментов мы исследуем влияние отдельных конструктивных решений. Наконец, наша предложенная MLLM, Honeybee, значительно превосходит предыдущие передовые методы на различных бенчмарках, включая MME, MMBench, SEED-Bench и LLaVA-Bench, достигая существенно более высокой эффективности. Код и модели доступны по адресу https://github.com/kakaobrain/honeybee.
English
In Multimodal Large Language Models (MLLMs), a visual projector plays a
crucial role in bridging pre-trained vision encoders with LLMs, enabling
profound visual understanding while harnessing the LLMs' robust capabilities.
Despite the importance of the visual projector, it has been relatively less
explored. In this study, we first identify two essential projector properties:
(i) flexibility in managing the number of visual tokens, crucial for MLLMs'
overall efficiency, and (ii) preservation of local context from visual
features, vital for spatial understanding. Based on these findings, we propose
a novel projector design that is both flexible and locality-enhanced,
effectively satisfying the two desirable properties. Additionally, we present
comprehensive strategies to effectively utilize multiple and multifaceted
instruction datasets. Through extensive experiments, we examine the impact of
individual design choices. Finally, our proposed MLLM, Honeybee, remarkably
outperforms previous state-of-the-art methods across various benchmarks,
including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly
higher efficiency. Code and models are available at
https://github.com/kakaobrain/honeybee.