Eagle: Esplorazione dello Spazio di Progettazione per Modelli Linguaggio Multimodali con Miscela di Codificatori
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders
August 28, 2024
Autori: Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu
cs.AI
Abstract
La capacità di interpretare accuratamente informazioni visive complesse è un argomento cruciale dei modelli linguistici multimodali di grandi dimensioni (MLLM). Lavori recenti indicano che una percezione visiva potenziata riduce significativamente le allucinazioni e migliora le prestazioni su compiti sensibili alla risoluzione, come il riconoscimento ottico dei caratteri e l'analisi dei documenti. Diversi MLLM recenti raggiungono questo obiettivo utilizzando una combinazione di codificatori visivi. Nonostante il loro successo, mancano confronti sistematici e dettagliati studi di ablazione che affrontino aspetti critici, come la selezione degli esperti e l'integrazione di più esperti visivi. Questo studio fornisce un'ampia esplorazione dello spazio di progettazione per i MLLM utilizzando una combinazione di codificatori visivi e risoluzioni. Le nostre scoperte rivelano diversi principi sottostanti comuni a varie strategie esistenti, portando a un approccio di progettazione snello ma efficace. Scopriamo che semplicemente concatenare token visivi da un insieme di codificatori visivi complementari è altrettanto efficace quanto architetture o strategie di miscelazione più complesse. Introduciamo inoltre il Pre-Allineamento per colmare il divario tra i codificatori focalizzati sulla visione e i token linguistici, migliorando la coerenza del modello. La famiglia risultante di MLLM, Eagle, supera gli altri principali modelli open-source su importanti benchmark di MLLM. Modelli e codice: https://github.com/NVlabs/Eagle
English
The ability to accurately interpret complex visual information is a crucial
topic of multimodal large language models (MLLMs). Recent work indicates that
enhanced visual perception significantly reduces hallucinations and improves
performance on resolution-sensitive tasks, such as optical character
recognition and document analysis. A number of recent MLLMs achieve this goal
using a mixture of vision encoders. Despite their success, there is a lack of
systematic comparisons and detailed ablation studies addressing critical
aspects, such as expert selection and the integration of multiple vision
experts. This study provides an extensive exploration of the design space for
MLLMs using a mixture of vision encoders and resolutions. Our findings reveal
several underlying principles common to various existing strategies, leading to
a streamlined yet effective design approach. We discover that simply
concatenating visual tokens from a set of complementary vision encoders is as
effective as more complex mixing architectures or strategies. We additionally
introduce Pre-Alignment to bridge the gap between vision-focused encoders and
language tokens, enhancing model coherence. The resulting family of MLLMs,
Eagle, surpasses other leading open-source models on major MLLM benchmarks.
Models and code: https://github.com/NVlabs/Eagle