Eagle : Exploration de l'espace de conception pour les LLM multimodaux avec un mélange d'encodeursEagle: Exploring The Design Space for Multimodal LLMs with Mixture of
Encoders
La capacité d'interpréter avec précision des informations visuelles complexes est un sujet crucial des grands modèles de langage multimodaux (MLLM). Des travaux récents indiquent que l'amélioration de la perception visuelle réduit significativement les hallucinations et améliore les performances sur des tâches sensibles à la résolution, telles que la reconnaissance optique de caractères et l'analyse de documents. Plusieurs MLLMs récents atteignent cet objectif en utilisant un mélange de codeurs visuels. Malgré leur succès, il existe un manque de comparaisons systématiques et d'études d'ablation détaillées abordant des aspects critiques, tels que la sélection d'experts et l'intégration de plusieurs experts en vision. Cette étude propose une exploration approfondie de l'espace de conception des MLLMs en utilisant un mélange de codeurs visuels et de résolutions. Nos résultats révèlent plusieurs principes sous-jacents communs à diverses stratégies existantes, conduisant à une approche de conception simplifiée mais efficace. Nous découvrons que simplement concaténer des jetons visuels issus d'un ensemble de codeurs visuels complémentaires est aussi efficace que des architectures ou stratégies de mélange plus complexes. Nous introduisons également la Pré-Alignement pour combler le fossé entre les codeurs axés sur la vision et les jetons de langage, améliorant la cohérence du modèle. La famille de MLLMs résultante, Eagle, surpasse d'autres modèles open-source de premier plan sur les principaux bancs d'essai de MLLM. Modèles et code : https://github.com/NVlabs/Eagle