MouSi: Poly-Visuele-Expert Vision-Taalmodellen
MouSi: Poly-Visual-Expert Vision-Language Models
January 30, 2024
Auteurs: Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Samenvatting
Huidige grote visueel-taalmodelen (VLMs) ondervinden vaak uitdagingen zoals onvoldoende capaciteiten van een enkele visuele component en excessief lange visuele tokens. Deze problemen kunnen de effectiviteit van het model beperken bij het nauwkeurig interpreteren van complexe visuele informatie en overlange contextuele informatie. Het aanpakken van deze uitdagingen is cruciaal voor het verbeteren van de prestaties en toepasbaarheid van VLMs. Dit artikel stelt het gebruik van de ensemble-experts techniek voor om de capaciteiten van individuele visuele encoders te combineren, waaronder die gespecialiseerd zijn in beeld-tekst matching, OCR, beeldsegmentatie, enz. Deze techniek introduceert een fusienetwerk om de verwerking van uitvoeren van verschillende visuele experts te unificeren, terwijl de kloof tussen beeldencoders en vooraf getrainde LLMs wordt overbrugd. Daarnaast onderzoeken we verschillende positionele coderingstechnieken om de verspilling van positionele codering veroorzaakt door lange beeldkenmerksequenties te verminderen, waardoor het probleem van positie-overloop en lengtebeperkingen effectief wordt aangepakt. In onze implementatie reduceert deze techniek bijvoorbeeld de positionele bezetting in modellen zoals SAM aanzienlijk, van een substantiële 4096 naar een efficiëntere en hanteerbare 64 of zelfs naar 1. Experimentele resultaten tonen aan dat VLMs met meerdere experts consistent superieure prestaties vertonen in vergelijking met geïsoleerde visuele encoders en een significante prestatieverbetering markeren naarmate meer experts worden geïntegreerd. We hebben de trainingscode die in dit rapport wordt gebruikt openbaar gemaakt. Al deze bronnen zijn te vinden op onze projectwebsite.
English
Current large vision-language models (VLMs) often encounter challenges such
as insufficient capabilities of a single visual component and excessively long
visual tokens. These issues can limit the model's effectiveness in accurately
interpreting complex visual information and over-lengthy contextual
information. Addressing these challenges is crucial for enhancing the
performance and applicability of VLMs. This paper proposes the use of ensemble
experts technique to synergizes the capabilities of individual visual encoders,
including those skilled in image-text matching, OCR, image segmentation, etc.
This technique introduces a fusion network to unify the processing of outputs
from different visual experts, while bridging the gap between image encoders
and pre-trained LLMs. In addition, we explore different positional encoding
schemes to alleviate the waste of positional encoding caused by lengthy image
feature sequences, effectively addressing the issue of position overflow and
length limitations. For instance, in our implementation, this technique
significantly reduces the positional occupancy in models like SAM, from a
substantial 4096 to a more efficient and manageable 64 or even down to 1.
Experimental results demonstrate that VLMs with multiple experts exhibit
consistently superior performance over isolated visual encoders and mark a
significant performance boost as more experts are integrated. We have
open-sourced the training code used in this report. All of these resources can
be found on our project website.