ChatPaper.aiChatPaper

Honeybee: Lokalitätsoptimierter Projektor für multimodale LLM

Honeybee: Locality-enhanced Projector for Multimodal LLM

December 11, 2023
Autoren: Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh
cs.AI

Zusammenfassung

In Multimodal Large Language Models (MLLMs) spielt ein visueller Projektor eine entscheidende Rolle bei der Verbindung vortrainierter Vision-Encoder mit LLMs, wodurch ein tiefgreifendes visuelles Verständnis ermöglicht wird, während die robusten Fähigkeiten der LLMs genutzt werden. Trotz der Bedeutung des visuellen Projektors wurde dieser bisher relativ wenig erforscht. In dieser Studie identifizieren wir zunächst zwei wesentliche Eigenschaften des Projektors: (i) Flexibilität bei der Verwaltung der Anzahl visueller Tokens, die für die Gesamteffizienz von MLLMs entscheidend ist, und (ii) die Bewahrung des lokalen Kontexts aus visuellen Merkmalen, die für das räumliche Verständnis von zentraler Bedeutung ist. Basierend auf diesen Erkenntnissen schlagen wir ein neuartiges Projektor-Design vor, das sowohl flexibel als auch lokalitätsverstärkt ist und damit die beiden wünschenswerten Eigenschaften effektiv erfüllt. Zusätzlich präsentieren wir umfassende Strategien zur effektiven Nutzung von mehreren und vielseitigen Instruktionsdatensätzen. Durch umfangreiche Experimente untersuchen wir die Auswirkungen einzelner Designentscheidungen. Schließlich übertrifft unser vorgeschlagener MLLM, Honeybee, bemerkenswert die bisherigen State-of-the-Art-Methoden in verschiedenen Benchmarks, darunter MME, MMBench, SEED-Bench und LLaVA-Bench, und erreicht dabei eine deutlich höhere Effizienz. Code und Modelle sind verfügbar unter https://github.com/kakaobrain/honeybee.
English
In Multimodal Large Language Models (MLLMs), a visual projector plays a crucial role in bridging pre-trained vision encoders with LLMs, enabling profound visual understanding while harnessing the LLMs' robust capabilities. Despite the importance of the visual projector, it has been relatively less explored. In this study, we first identify two essential projector properties: (i) flexibility in managing the number of visual tokens, crucial for MLLMs' overall efficiency, and (ii) preservation of local context from visual features, vital for spatial understanding. Based on these findings, we propose a novel projector design that is both flexible and locality-enhanced, effectively satisfying the two desirable properties. Additionally, we present comprehensive strategies to effectively utilize multiple and multifaceted instruction datasets. Through extensive experiments, we examine the impact of individual design choices. Finally, our proposed MLLM, Honeybee, remarkably outperforms previous state-of-the-art methods across various benchmarks, including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly higher efficiency. Code and models are available at https://github.com/kakaobrain/honeybee.
PDF140December 15, 2024