MouSi : Modèles vision-langage à experts visuels polyvalents
MouSi: Poly-Visual-Expert Vision-Language Models
January 30, 2024
Auteurs: Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Résumé
Les modèles actuels de vision et langage de grande envergure (VLMs) rencontrent souvent des défis tels que les capacités insuffisantes d'un seul composant visuel et des tokens visuels excessivement longs. Ces problèmes peuvent limiter l'efficacité du modèle dans l'interprétation précise d'informations visuelles complexes et de contextes trop étendus. Résoudre ces défis est crucial pour améliorer les performances et l'applicabilité des VLMs. Ce papier propose l'utilisation de la technique d'ensemble d'experts pour synergiser les capacités des encodeurs visuels individuels, y compris ceux spécialisés dans l'appariement image-texte, la reconnaissance optique de caractères (OCR), la segmentation d'images, etc. Cette technique introduit un réseau de fusion pour unifier le traitement des sorties de différents experts visuels, tout en comblant le fossé entre les encodeurs d'images et les modèles de langage pré-entraînés (LLMs). De plus, nous explorons différents schémas d'encodage positionnel pour atténuer le gaspillage d'encodage positionnel causé par des séquences de caractéristiques d'images trop longues, résolvant efficacement les problèmes de débordement de position et de limitations de longueur. Par exemple, dans notre implémentation, cette technique réduit significativement l'occupation positionnelle dans des modèles comme SAM, passant de 4096 à une valeur plus efficace et gérable de 64, voire jusqu'à 1. Les résultats expérimentaux montrent que les VLMs avec plusieurs experts présentent des performances constamment supérieures à celles des encodeurs visuels isolés et marquent une augmentation significative des performances à mesure que davantage d'experts sont intégrés. Nous avons ouvert le code d'entraînement utilisé dans ce rapport. Toutes ces ressources sont disponibles sur le site web de notre projet.
English
Current large vision-language models (VLMs) often encounter challenges such
as insufficient capabilities of a single visual component and excessively long
visual tokens. These issues can limit the model's effectiveness in accurately
interpreting complex visual information and over-lengthy contextual
information. Addressing these challenges is crucial for enhancing the
performance and applicability of VLMs. This paper proposes the use of ensemble
experts technique to synergizes the capabilities of individual visual encoders,
including those skilled in image-text matching, OCR, image segmentation, etc.
This technique introduces a fusion network to unify the processing of outputs
from different visual experts, while bridging the gap between image encoders
and pre-trained LLMs. In addition, we explore different positional encoding
schemes to alleviate the waste of positional encoding caused by lengthy image
feature sequences, effectively addressing the issue of position overflow and
length limitations. For instance, in our implementation, this technique
significantly reduces the positional occupancy in models like SAM, from a
substantial 4096 to a more efficient and manageable 64 or even down to 1.
Experimental results demonstrate that VLMs with multiple experts exhibit
consistently superior performance over isolated visual encoders and mark a
significant performance boost as more experts are integrated. We have
open-sourced the training code used in this report. All of these resources can
be found on our project website.