Honeybee: Lokalitätsoptimierter Projektor für multimodale LLM
Honeybee: Locality-enhanced Projector for Multimodal LLM
December 11, 2023
Autoren: Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh
cs.AI
Zusammenfassung
In Multimodal Large Language Models (MLLMs) spielt ein visueller Projektor eine entscheidende Rolle bei der Verbindung vortrainierter Vision-Encoder mit LLMs, wodurch ein tiefgreifendes visuelles Verständnis ermöglicht wird, während die robusten Fähigkeiten der LLMs genutzt werden. Trotz der Bedeutung des visuellen Projektors wurde dieser bisher relativ wenig erforscht. In dieser Studie identifizieren wir zunächst zwei wesentliche Eigenschaften des Projektors: (i) Flexibilität bei der Verwaltung der Anzahl visueller Tokens, die für die Gesamteffizienz von MLLMs entscheidend ist, und (ii) die Bewahrung des lokalen Kontexts aus visuellen Merkmalen, die für das räumliche Verständnis von zentraler Bedeutung ist. Basierend auf diesen Erkenntnissen schlagen wir ein neuartiges Projektor-Design vor, das sowohl flexibel als auch lokalitätsverstärkt ist und damit die beiden wünschenswerten Eigenschaften effektiv erfüllt. Zusätzlich präsentieren wir umfassende Strategien zur effektiven Nutzung von mehreren und vielseitigen Instruktionsdatensätzen. Durch umfangreiche Experimente untersuchen wir die Auswirkungen einzelner Designentscheidungen. Schließlich übertrifft unser vorgeschlagener MLLM, Honeybee, bemerkenswert die bisherigen State-of-the-Art-Methoden in verschiedenen Benchmarks, darunter MME, MMBench, SEED-Bench und LLaVA-Bench, und erreicht dabei eine deutlich höhere Effizienz. Code und Modelle sind verfügbar unter https://github.com/kakaobrain/honeybee.
English
In Multimodal Large Language Models (MLLMs), a visual projector plays a
crucial role in bridging pre-trained vision encoders with LLMs, enabling
profound visual understanding while harnessing the LLMs' robust capabilities.
Despite the importance of the visual projector, it has been relatively less
explored. In this study, we first identify two essential projector properties:
(i) flexibility in managing the number of visual tokens, crucial for MLLMs'
overall efficiency, and (ii) preservation of local context from visual
features, vital for spatial understanding. Based on these findings, we propose
a novel projector design that is both flexible and locality-enhanced,
effectively satisfying the two desirable properties. Additionally, we present
comprehensive strategies to effectively utilize multiple and multifaceted
instruction datasets. Through extensive experiments, we examine the impact of
individual design choices. Finally, our proposed MLLM, Honeybee, remarkably
outperforms previous state-of-the-art methods across various benchmarks,
including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly
higher efficiency. Code and models are available at
https://github.com/kakaobrain/honeybee.