Honeybee: Proiettore con miglioramento della località per LLM multimodali

Abstract

Nei Modelli Linguistici Multimodali di Grande Scala (MLLMs), un proiettore visivo svolge un ruolo cruciale nel collegare encoder visivi pre-addestrati con i LLM, consentendo una profonda comprensione visiva sfruttando le robuste capacità dei LLM. Nonostante l'importanza del proiettore visivo, esso è stato relativamente poco esplorato. In questo studio, identifichiamo innanzitutto due proprietà essenziali del proiettore: (i) la flessibilità nella gestione del numero di token visivi, cruciale per l'efficienza complessiva degli MLLMs, e (ii) la preservazione del contesto locale dalle caratteristiche visive, vitale per la comprensione spaziale. Sulla base di queste osservazioni, proponiamo un nuovo design di proiettore che è sia flessibile che potenziato nella località, soddisfacendo efficacemente le due proprietà desiderabili. Inoltre, presentiamo strategie complete per utilizzare efficacemente dataset di istruzioni multipli e multifaccettati. Attraverso esperimenti estesi, esaminiamo l'impatto delle singole scelte progettuali. Infine, il nostro MLLM proposto, Honeybee, supera notevolmente i precedenti metodi all'avanguardia su vari benchmark, tra cui MME, MMBench, SEED-Bench e LLaVA-Bench, raggiungendo un'efficienza significativamente maggiore. Codice e modelli sono disponibili all'indirizzo https://github.com/kakaobrain/honeybee.

English

In Multimodal Large Language Models (MLLMs), a visual projector plays a crucial role in bridging pre-trained vision encoders with LLMs, enabling profound visual understanding while harnessing the LLMs' robust capabilities. Despite the importance of the visual projector, it has been relatively less explored. In this study, we first identify two essential projector properties: (i) flexibility in managing the number of visual tokens, crucial for MLLMs' overall efficiency, and (ii) preservation of local context from visual features, vital for spatial understanding. Based on these findings, we propose a novel projector design that is both flexible and locality-enhanced, effectively satisfying the two desirable properties. Additionally, we present comprehensive strategies to effectively utilize multiple and multifaceted instruction datasets. Through extensive experiments, we examine the impact of individual design choices. Finally, our proposed MLLM, Honeybee, remarkably outperforms previous state-of-the-art methods across various benchmarks, including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly higher efficiency. Code and models are available at https://github.com/kakaobrain/honeybee.

Honeybee: Proiettore con miglioramento della località per LLM multimodali

Honeybee: Locality-enhanced Projector for Multimodal LLM

Abstract

Support