MouSi : Modèles vision-langage à experts visuels polyvalents

papers.abstract

Les modèles actuels de vision et langage de grande envergure (VLMs) rencontrent souvent des défis tels que les capacités insuffisantes d'un seul composant visuel et des tokens visuels excessivement longs. Ces problèmes peuvent limiter l'efficacité du modèle dans l'interprétation précise d'informations visuelles complexes et de contextes trop étendus. Résoudre ces défis est crucial pour améliorer les performances et l'applicabilité des VLMs. Ce papier propose l'utilisation de la technique d'ensemble d'experts pour synergiser les capacités des encodeurs visuels individuels, y compris ceux spécialisés dans l'appariement image-texte, la reconnaissance optique de caractères (OCR), la segmentation d'images, etc. Cette technique introduit un réseau de fusion pour unifier le traitement des sorties de différents experts visuels, tout en comblant le fossé entre les encodeurs d'images et les modèles de langage pré-entraînés (LLMs). De plus, nous explorons différents schémas d'encodage positionnel pour atténuer le gaspillage d'encodage positionnel causé par des séquences de caractéristiques d'images trop longues, résolvant efficacement les problèmes de débordement de position et de limitations de longueur. Par exemple, dans notre implémentation, cette technique réduit significativement l'occupation positionnelle dans des modèles comme SAM, passant de 4096 à une valeur plus efficace et gérable de 64, voire jusqu'à 1. Les résultats expérimentaux montrent que les VLMs avec plusieurs experts présentent des performances constamment supérieures à celles des encodeurs visuels isolés et marquent une augmentation significative des performances à mesure que davantage d'experts sont intégrés. Nous avons ouvert le code d'entraînement utilisé dans ce rapport. Toutes ces ressources sont disponibles sur le site web de notre projet.

English

Current large vision-language models (VLMs) often encounter challenges such as insufficient capabilities of a single visual component and excessively long visual tokens. These issues can limit the model's effectiveness in accurately interpreting complex visual information and over-lengthy contextual information. Addressing these challenges is crucial for enhancing the performance and applicability of VLMs. This paper proposes the use of ensemble experts technique to synergizes the capabilities of individual visual encoders, including those skilled in image-text matching, OCR, image segmentation, etc. This technique introduces a fusion network to unify the processing of outputs from different visual experts, while bridging the gap between image encoders and pre-trained LLMs. In addition, we explore different positional encoding schemes to alleviate the waste of positional encoding caused by lengthy image feature sequences, effectively addressing the issue of position overflow and length limitations. For instance, in our implementation, this technique significantly reduces the positional occupancy in models like SAM, from a substantial 4096 to a more efficient and manageable 64 or even down to 1. Experimental results demonstrate that VLMs with multiple experts exhibit consistently superior performance over isolated visual encoders and mark a significant performance boost as more experts are integrated. We have open-sourced the training code used in this report. All of these resources can be found on our project website.

MouSi : Modèles vision-langage à experts visuels polyvalents

MouSi: Poly-Visual-Expert Vision-Language Models

papers.abstract

Support