Honeybee: Локализованный проектор для мультимодальных больших языковых моделей

Аннотация

В мультимодальных больших языковых моделях (MLLMs) визуальный проектор играет ключевую роль, связывая предобученные визуальные кодировщики с языковыми моделями, что позволяет достичь глубокого понимания визуальной информации, одновременно используя мощные возможности языковых моделей. Несмотря на важность визуального проектора, он остается относительно малоизученным. В данном исследовании мы сначала выделяем два ключевых свойства проектора: (i) гибкость в управлении количеством визуальных токенов, что критически важно для общей эффективности MLLMs, и (ii) сохранение локального контекста из визуальных признаков, что необходимо для пространственного понимания. На основе этих выводов мы предлагаем новую конструкцию проектора, которая является одновременно гибкой и усиленной с точки зрения локальности, эффективно удовлетворяя двум желаемым свойствам. Кроме того, мы представляем комплексные стратегии для эффективного использования множественных и многоаспектных наборов инструктивных данных. В ходе обширных экспериментов мы исследуем влияние отдельных конструктивных решений. Наконец, наша предложенная MLLM, Honeybee, значительно превосходит предыдущие передовые методы на различных бенчмарках, включая MME, MMBench, SEED-Bench и LLaVA-Bench, достигая существенно более высокой эффективности. Код и модели доступны по адресу https://github.com/kakaobrain/honeybee.

English

In Multimodal Large Language Models (MLLMs), a visual projector plays a crucial role in bridging pre-trained vision encoders with LLMs, enabling profound visual understanding while harnessing the LLMs' robust capabilities. Despite the importance of the visual projector, it has been relatively less explored. In this study, we first identify two essential projector properties: (i) flexibility in managing the number of visual tokens, crucial for MLLMs' overall efficiency, and (ii) preservation of local context from visual features, vital for spatial understanding. Based on these findings, we propose a novel projector design that is both flexible and locality-enhanced, effectively satisfying the two desirable properties. Additionally, we present comprehensive strategies to effectively utilize multiple and multifaceted instruction datasets. Through extensive experiments, we examine the impact of individual design choices. Finally, our proposed MLLM, Honeybee, remarkably outperforms previous state-of-the-art methods across various benchmarks, including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly higher efficiency. Code and models are available at https://github.com/kakaobrain/honeybee.

Honeybee: Локализованный проектор для мультимодальных больших языковых моделей

Honeybee: Locality-enhanced Projector for Multimodal LLM

Аннотация

Support