Honeybee : Projecteur à renforcement de localité pour les LLM multimodaux
Honeybee: Locality-enhanced Projector for Multimodal LLM
December 11, 2023
Auteurs: Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh
cs.AI
Résumé
Dans les modèles de langage multimodaux de grande taille (MLLMs), un projecteur visuel joue un rôle crucial en reliant les encodeurs visuels pré-entraînés aux LLMs, permettant une compréhension visuelle approfondie tout en exploitant les capacités robustes des LLMs. Malgré l'importance du projecteur visuel, celui-ci a été relativement peu exploré. Dans cette étude, nous identifions d'abord deux propriétés essentielles du projecteur : (i) la flexibilité dans la gestion du nombre de tokens visuels, cruciale pour l'efficacité globale des MLLMs, et (ii) la préservation du contexte local des caractéristiques visuelles, vitale pour la compréhension spatiale. Sur la base de ces constatations, nous proposons une nouvelle conception de projecteur à la fois flexible et améliorée en termes de localité, satisfaisant efficacement ces deux propriétés souhaitables. De plus, nous présentons des stratégies complètes pour exploiter efficacement des ensembles de données d'instructions multiples et variés. À travers des expériences approfondies, nous examinons l'impact des choix de conception individuels. Enfin, notre MLLM proposé, Honeybee, surpasse de manière remarquable les méthodes précédentes de pointe sur divers benchmarks, notamment MME, MMBench, SEED-Bench et LLaVA-Bench, atteignant une efficacité significativement plus élevée. Le code et les modèles sont disponibles à l'adresse https://github.com/kakaobrain/honeybee.
English
In Multimodal Large Language Models (MLLMs), a visual projector plays a
crucial role in bridging pre-trained vision encoders with LLMs, enabling
profound visual understanding while harnessing the LLMs' robust capabilities.
Despite the importance of the visual projector, it has been relatively less
explored. In this study, we first identify two essential projector properties:
(i) flexibility in managing the number of visual tokens, crucial for MLLMs'
overall efficiency, and (ii) preservation of local context from visual
features, vital for spatial understanding. Based on these findings, we propose
a novel projector design that is both flexible and locality-enhanced,
effectively satisfying the two desirable properties. Additionally, we present
comprehensive strategies to effectively utilize multiple and multifaceted
instruction datasets. Through extensive experiments, we examine the impact of
individual design choices. Finally, our proposed MLLM, Honeybee, remarkably
outperforms previous state-of-the-art methods across various benchmarks,
including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly
higher efficiency. Code and models are available at
https://github.com/kakaobrain/honeybee.