Honeybee: Proyector mejorado por localidad para modelos de lenguaje multimodal (LLM)
Honeybee: Locality-enhanced Projector for Multimodal LLM
December 11, 2023
Autores: Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh
cs.AI
Resumen
En los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), un proyector visual desempeña un papel crucial al conectar codificadores visuales preentrenados con los MLLMs, permitiendo una comprensión visual profunda mientras se aprovechan las robustas capacidades de los MLLMs. A pesar de la importancia del proyector visual, este ha sido relativamente menos explorado. En este estudio, primero identificamos dos propiedades esenciales del proyector: (i) la flexibilidad para gestionar el número de tokens visuales, crucial para la eficiencia general de los MLLMs, y (ii) la preservación del contexto local a partir de las características visuales, vital para la comprensión espacial. Basándonos en estos hallazgos, proponemos un diseño novedoso de proyector que es tanto flexible como mejorado en localidad, satisfaciendo efectivamente las dos propiedades deseables. Además, presentamos estrategias integrales para utilizar eficazmente múltiples y variados conjuntos de datos de instrucciones. A través de extensos experimentos, examinamos el impacto de las decisiones de diseño individuales. Finalmente, nuestro MLLM propuesto, Honeybee, supera notablemente a los métodos anteriores más avanzados en varios puntos de referencia, incluyendo MME, MMBench, SEED-Bench y LLaVA-Bench, logrando una eficiencia significativamente mayor. El código y los modelos están disponibles en https://github.com/kakaobrain/honeybee.
English
In Multimodal Large Language Models (MLLMs), a visual projector plays a
crucial role in bridging pre-trained vision encoders with LLMs, enabling
profound visual understanding while harnessing the LLMs' robust capabilities.
Despite the importance of the visual projector, it has been relatively less
explored. In this study, we first identify two essential projector properties:
(i) flexibility in managing the number of visual tokens, crucial for MLLMs'
overall efficiency, and (ii) preservation of local context from visual
features, vital for spatial understanding. Based on these findings, we propose
a novel projector design that is both flexible and locality-enhanced,
effectively satisfying the two desirable properties. Additionally, we present
comprehensive strategies to effectively utilize multiple and multifaceted
instruction datasets. Through extensive experiments, we examine the impact of
individual design choices. Finally, our proposed MLLM, Honeybee, remarkably
outperforms previous state-of-the-art methods across various benchmarks,
including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly
higher efficiency. Code and models are available at
https://github.com/kakaobrain/honeybee.