ChatPaper.aiChatPaper

Honeybee: Locality-verbeterde Projector voor Multimodale LLM

Honeybee: Locality-enhanced Projector for Multimodal LLM

December 11, 2023
Auteurs: Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh
cs.AI

Samenvatting

In Multimodale Large Language Models (MLLMs) speelt een visuele projector een cruciale rol bij het verbinden van vooraf getrainde visuele encoders met LLMs, waardoor diepgaand visueel begrip mogelijk wordt terwijl de robuuste capaciteiten van LLMs worden benut. Ondanks het belang van de visuele projector is deze relatief weinig onderzocht. In deze studie identificeren we eerst twee essentiële eigenschappen van de projector: (i) flexibiliteit in het beheren van het aantal visuele tokens, cruciaal voor de algehele efficiëntie van MLLMs, en (ii) het behoud van lokale context uit visuele kenmerken, essentieel voor ruimtelijk begrip. Op basis van deze bevindingen stellen we een nieuw projectorontwerp voor dat zowel flexibel als lokaal versterkt is, waardoor het effectief aan de twee gewenste eigenschappen voldoet. Daarnaast presenteren we uitgebreide strategieën om meerdere en veelzijdige instructiedatasets effectief te benutten. Door middel van uitgebreide experimenten onderzoeken we de impact van individuele ontwerpkeuzes. Ten slite presteert onze voorgestelde MLLM, Honeybee, opmerkelijk beter dan eerdere state-of-the-art methoden op verschillende benchmarks, waaronder MME, MMBench, SEED-Bench en LLaVA-Bench, en behaalt het aanzienlijk hogere efficiëntie. Code en modellen zijn beschikbaar op https://github.com/kakaobrain/honeybee.
English
In Multimodal Large Language Models (MLLMs), a visual projector plays a crucial role in bridging pre-trained vision encoders with LLMs, enabling profound visual understanding while harnessing the LLMs' robust capabilities. Despite the importance of the visual projector, it has been relatively less explored. In this study, we first identify two essential projector properties: (i) flexibility in managing the number of visual tokens, crucial for MLLMs' overall efficiency, and (ii) preservation of local context from visual features, vital for spatial understanding. Based on these findings, we propose a novel projector design that is both flexible and locality-enhanced, effectively satisfying the two desirable properties. Additionally, we present comprehensive strategies to effectively utilize multiple and multifaceted instruction datasets. Through extensive experiments, we examine the impact of individual design choices. Finally, our proposed MLLM, Honeybee, remarkably outperforms previous state-of-the-art methods across various benchmarks, including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly higher efficiency. Code and models are available at https://github.com/kakaobrain/honeybee.
PDF150December 15, 2024