ChatPaper.aiChatPaper

Eagle : Exploration de l'espace de conception pour les LLM multimodaux avec un mélange d'encodeurs

Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

August 28, 2024
Auteurs: Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu
cs.AI

Résumé

La capacité d'interpréter avec précision des informations visuelles complexes est un sujet crucial des grands modèles de langage multimodaux (MLLM). Des travaux récents indiquent que l'amélioration de la perception visuelle réduit significativement les hallucinations et améliore les performances sur des tâches sensibles à la résolution, telles que la reconnaissance optique de caractères et l'analyse de documents. Plusieurs MLLMs récents atteignent cet objectif en utilisant un mélange de codeurs visuels. Malgré leur succès, il existe un manque de comparaisons systématiques et d'études d'ablation détaillées abordant des aspects critiques, tels que la sélection d'experts et l'intégration de plusieurs experts en vision. Cette étude propose une exploration approfondie de l'espace de conception des MLLMs en utilisant un mélange de codeurs visuels et de résolutions. Nos résultats révèlent plusieurs principes sous-jacents communs à diverses stratégies existantes, conduisant à une approche de conception simplifiée mais efficace. Nous découvrons que simplement concaténer des jetons visuels issus d'un ensemble de codeurs visuels complémentaires est aussi efficace que des architectures ou stratégies de mélange plus complexes. Nous introduisons également la Pré-Alignement pour combler le fossé entre les codeurs axés sur la vision et les jetons de langage, améliorant la cohérence du modèle. La famille de MLLMs résultante, Eagle, surpasse d'autres modèles open-source de premier plan sur les principaux bancs d'essai de MLLM. Modèles et code : https://github.com/NVlabs/Eagle
English
The ability to accurately interpret complex visual information is a crucial topic of multimodal large language models (MLLMs). Recent work indicates that enhanced visual perception significantly reduces hallucinations and improves performance on resolution-sensitive tasks, such as optical character recognition and document analysis. A number of recent MLLMs achieve this goal using a mixture of vision encoders. Despite their success, there is a lack of systematic comparisons and detailed ablation studies addressing critical aspects, such as expert selection and the integration of multiple vision experts. This study provides an extensive exploration of the design space for MLLMs using a mixture of vision encoders and resolutions. Our findings reveal several underlying principles common to various existing strategies, leading to a streamlined yet effective design approach. We discover that simply concatenating visual tokens from a set of complementary vision encoders is as effective as more complex mixing architectures or strategies. We additionally introduce Pre-Alignment to bridge the gap between vision-focused encoders and language tokens, enhancing model coherence. The resulting family of MLLMs, Eagle, surpasses other leading open-source models on major MLLM benchmarks. Models and code: https://github.com/NVlabs/Eagle

Summary

AI-Generated Summary

PDF883November 16, 2024