ChatPaper.aiChatPaper

Eagle: Esplorazione dello Spazio di Progettazione per Modelli Linguaggio Multimodali con Miscela di Codificatori

Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

August 28, 2024
Autori: Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu
cs.AI

Abstract

La capacità di interpretare accuratamente informazioni visive complesse è un argomento cruciale dei modelli linguistici multimodali di grandi dimensioni (MLLM). Lavori recenti indicano che una percezione visiva potenziata riduce significativamente le allucinazioni e migliora le prestazioni su compiti sensibili alla risoluzione, come il riconoscimento ottico dei caratteri e l'analisi dei documenti. Diversi MLLM recenti raggiungono questo obiettivo utilizzando una combinazione di codificatori visivi. Nonostante il loro successo, mancano confronti sistematici e dettagliati studi di ablazione che affrontino aspetti critici, come la selezione degli esperti e l'integrazione di più esperti visivi. Questo studio fornisce un'ampia esplorazione dello spazio di progettazione per i MLLM utilizzando una combinazione di codificatori visivi e risoluzioni. Le nostre scoperte rivelano diversi principi sottostanti comuni a varie strategie esistenti, portando a un approccio di progettazione snello ma efficace. Scopriamo che semplicemente concatenare token visivi da un insieme di codificatori visivi complementari è altrettanto efficace quanto architetture o strategie di miscelazione più complesse. Introduciamo inoltre il Pre-Allineamento per colmare il divario tra i codificatori focalizzati sulla visione e i token linguistici, migliorando la coerenza del modello. La famiglia risultante di MLLM, Eagle, supera gli altri principali modelli open-source su importanti benchmark di MLLM. Modelli e codice: https://github.com/NVlabs/Eagle
English
The ability to accurately interpret complex visual information is a crucial topic of multimodal large language models (MLLMs). Recent work indicates that enhanced visual perception significantly reduces hallucinations and improves performance on resolution-sensitive tasks, such as optical character recognition and document analysis. A number of recent MLLMs achieve this goal using a mixture of vision encoders. Despite their success, there is a lack of systematic comparisons and detailed ablation studies addressing critical aspects, such as expert selection and the integration of multiple vision experts. This study provides an extensive exploration of the design space for MLLMs using a mixture of vision encoders and resolutions. Our findings reveal several underlying principles common to various existing strategies, leading to a streamlined yet effective design approach. We discover that simply concatenating visual tokens from a set of complementary vision encoders is as effective as more complex mixing architectures or strategies. We additionally introduce Pre-Alignment to bridge the gap between vision-focused encoders and language tokens, enhancing model coherence. The resulting family of MLLMs, Eagle, surpasses other leading open-source models on major MLLM benchmarks. Models and code: https://github.com/NVlabs/Eagle
PDF873November 16, 2024