Honeybee: Proyector mejorado por localidad para modelos de lenguaje multimodal (LLM)

Resumen

En los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), un proyector visual desempeña un papel crucial al conectar codificadores visuales preentrenados con los MLLMs, permitiendo una comprensión visual profunda mientras se aprovechan las robustas capacidades de los MLLMs. A pesar de la importancia del proyector visual, este ha sido relativamente menos explorado. En este estudio, primero identificamos dos propiedades esenciales del proyector: (i) la flexibilidad para gestionar el número de tokens visuales, crucial para la eficiencia general de los MLLMs, y (ii) la preservación del contexto local a partir de las características visuales, vital para la comprensión espacial. Basándonos en estos hallazgos, proponemos un diseño novedoso de proyector que es tanto flexible como mejorado en localidad, satisfaciendo efectivamente las dos propiedades deseables. Además, presentamos estrategias integrales para utilizar eficazmente múltiples y variados conjuntos de datos de instrucciones. A través de extensos experimentos, examinamos el impacto de las decisiones de diseño individuales. Finalmente, nuestro MLLM propuesto, Honeybee, supera notablemente a los métodos anteriores más avanzados en varios puntos de referencia, incluyendo MME, MMBench, SEED-Bench y LLaVA-Bench, logrando una eficiencia significativamente mayor. El código y los modelos están disponibles en https://github.com/kakaobrain/honeybee.

English

In Multimodal Large Language Models (MLLMs), a visual projector plays a crucial role in bridging pre-trained vision encoders with LLMs, enabling profound visual understanding while harnessing the LLMs' robust capabilities. Despite the importance of the visual projector, it has been relatively less explored. In this study, we first identify two essential projector properties: (i) flexibility in managing the number of visual tokens, crucial for MLLMs' overall efficiency, and (ii) preservation of local context from visual features, vital for spatial understanding. Based on these findings, we propose a novel projector design that is both flexible and locality-enhanced, effectively satisfying the two desirable properties. Additionally, we present comprehensive strategies to effectively utilize multiple and multifaceted instruction datasets. Through extensive experiments, we examine the impact of individual design choices. Finally, our proposed MLLM, Honeybee, remarkably outperforms previous state-of-the-art methods across various benchmarks, including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly higher efficiency. Code and models are available at https://github.com/kakaobrain/honeybee.

Honeybee: Proyector mejorado por localidad para modelos de lenguaje multimodal (LLM)

Honeybee: Locality-enhanced Projector for Multimodal LLM

Resumen

Support