Honeybee: Projetor Aprimorado por Localidade para LLM Multimodal
Honeybee: Locality-enhanced Projector for Multimodal LLM
December 11, 2023
Autores: Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh
cs.AI
Resumo
Em Modelos de Linguagem Multimodais de Grande Escala (MLLMs), um projetor visual desempenha um papel crucial ao conectar codificadores de visão pré-treinados com LLMs, permitindo um profundo entendimento visual enquanto aproveita as robustas capacidades dos LLMs. Apesar da importância do projetor visual, ele tem sido relativamente menos explorado. Neste estudo, primeiro identificamos duas propriedades essenciais do projetor: (i) flexibilidade no gerenciamento do número de tokens visuais, crucial para a eficiência geral dos MLLMs, e (ii) preservação do contexto local a partir de características visuais, vital para o entendimento espacial. Com base nessas descobertas, propomos um novo design de projetor que é tanto flexível quanto aprimorado em termos de localidade, satisfazendo efetivamente as duas propriedades desejáveis. Além disso, apresentamos estratégias abrangentes para utilizar de forma eficaz múltiplos e multifacetados conjuntos de dados de instrução. Por meio de extensos experimentos, examinamos o impacto de escolhas de design individuais. Por fim, nosso MLLM proposto, Honeybee, supera notavelmente os métodos anteriores de última geração em vários benchmarks, incluindo MME, MMBench, SEED-Bench e LLaVA-Bench, alcançando uma eficiência significativamente maior. Códigos e modelos estão disponíveis em https://github.com/kakaobrain/honeybee.
English
In Multimodal Large Language Models (MLLMs), a visual projector plays a
crucial role in bridging pre-trained vision encoders with LLMs, enabling
profound visual understanding while harnessing the LLMs' robust capabilities.
Despite the importance of the visual projector, it has been relatively less
explored. In this study, we first identify two essential projector properties:
(i) flexibility in managing the number of visual tokens, crucial for MLLMs'
overall efficiency, and (ii) preservation of local context from visual
features, vital for spatial understanding. Based on these findings, we propose
a novel projector design that is both flexible and locality-enhanced,
effectively satisfying the two desirable properties. Additionally, we present
comprehensive strategies to effectively utilize multiple and multifaceted
instruction datasets. Through extensive experiments, we examine the impact of
individual design choices. Finally, our proposed MLLM, Honeybee, remarkably
outperforms previous state-of-the-art methods across various benchmarks,
including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly
higher efficiency. Code and models are available at
https://github.com/kakaobrain/honeybee.