허니비(Honeybee): 멀티모달 LLM을 위한 지역성 강화 프로젝터
Honeybee: Locality-enhanced Projector for Multimodal LLM
December 11, 2023
저자: Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)에서 시각적 프로젝터는 사전 훈련된 비전 인코더와 LLMs를 연결하는 데 중요한 역할을 하며, LLMs의 강력한 능력을 활용하면서도 심층적인 시각적 이해를 가능하게 합니다. 시각적 프로젝터의 중요성에도 불구하고, 이는 상대적으로 덜 탐구된 분야입니다. 본 연구에서는 먼저 두 가지 필수적인 프로젝터 특성을 식별합니다: (i) MLLMs의 전반적인 효율성에 중요한 시각적 토큰 수를 관리하는 유연성, 그리고 (ii) 공간적 이해에 필수적인 시각적 특징에서의 지역적 문맥 보존. 이러한 발견을 바탕으로, 우리는 유연성과 지역적 강화를 모두 갖춘 새로운 프로젝터 설계를 제안하며, 이는 두 가지 바람직한 특성을 효과적으로 만족시킵니다. 또한, 다중 및 다면적 명령어 데이터셋을 효과적으로 활용하기 위한 포괄적인 전략을 제시합니다. 광범위한 실험을 통해 개별 설계 선택의 영향을 검토합니다. 마지막으로, 우리가 제안한 MLLM인 Honeybee는 MME, MMBench, SEED-Bench, LLaVA-Bench 등 다양한 벤치마크에서 이전의 최첨단 방법들을 크게 능가하며, 상당히 높은 효율성을 달성합니다. 코드와 모델은 https://github.com/kakaobrain/honeybee에서 확인할 수 있습니다.
English
In Multimodal Large Language Models (MLLMs), a visual projector plays a
crucial role in bridging pre-trained vision encoders with LLMs, enabling
profound visual understanding while harnessing the LLMs' robust capabilities.
Despite the importance of the visual projector, it has been relatively less
explored. In this study, we first identify two essential projector properties:
(i) flexibility in managing the number of visual tokens, crucial for MLLMs'
overall efficiency, and (ii) preservation of local context from visual
features, vital for spatial understanding. Based on these findings, we propose
a novel projector design that is both flexible and locality-enhanced,
effectively satisfying the two desirable properties. Additionally, we present
comprehensive strategies to effectively utilize multiple and multifaceted
instruction datasets. Through extensive experiments, we examine the impact of
individual design choices. Finally, our proposed MLLM, Honeybee, remarkably
outperforms previous state-of-the-art methods across various benchmarks,
including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly
higher efficiency. Code and models are available at
https://github.com/kakaobrain/honeybee.