MouSi: Poly-Visuelle-Expert Vision-Language-Modelle
MouSi: Poly-Visual-Expert Vision-Language Models
January 30, 2024
Autoren: Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Zusammenfassung
Aktuelle große Vision-Language-Modelle (VLMs) stoßen oft auf Herausforderungen wie unzureichende Fähigkeiten einer einzelnen visuellen Komponente und übermäßig lange visuelle Tokens. Diese Probleme können die Effektivität des Modells bei der genauen Interpretation komplexer visueller Informationen und überlanger kontextueller Informationen einschränken. Die Bewältigung dieser Herausforderungen ist entscheidend, um die Leistung und Anwendbarkeit von VLMs zu verbessern. Dieses Papier schlägt die Verwendung der Ensemble-Experten-Technik vor, um die Fähigkeiten einzelner visueller Encoder zu kombinieren, einschließlich solcher, die in Bild-Text-Matching, OCR, Bildsegmentierung usw. geschickt sind. Diese Technik führt ein Fusionsnetzwerk ein, um die Verarbeitung der Ausgaben verschiedener visueller Experten zu vereinheitlichen und gleichzeitig die Lücke zwischen Bildencodern und vortrainierten LLMs zu überbrücken. Darüber hinaus untersuchen wir verschiedene Positional-Encoding-Schemata, um die Verschwendung von Positional Encoding durch lange Bildmerkmalsequenzen zu verringern und so das Problem des Positionsüberlaufs und der Längenbeschränkungen effektiv zu lösen. Beispielsweise reduziert diese Technik in unserer Implementierung die Positionsbelegung in Modellen wie SAM erheblich, von beträchtlichen 4096 auf effizientere und handhabbare 64 oder sogar auf 1. Experimentelle Ergebnisse zeigen, dass VLMs mit mehreren Experten durchweg bessere Leistungen erzielen als isolierte visuelle Encoder und eine signifikante Leistungssteigerung markieren, wenn mehr Experten integriert werden. Wir haben den in diesem Bericht verwendeten Trainingscode quelloffen gemacht. Alle diese Ressourcen finden Sie auf unserer Projektwebsite.
English
Current large vision-language models (VLMs) often encounter challenges such
as insufficient capabilities of a single visual component and excessively long
visual tokens. These issues can limit the model's effectiveness in accurately
interpreting complex visual information and over-lengthy contextual
information. Addressing these challenges is crucial for enhancing the
performance and applicability of VLMs. This paper proposes the use of ensemble
experts technique to synergizes the capabilities of individual visual encoders,
including those skilled in image-text matching, OCR, image segmentation, etc.
This technique introduces a fusion network to unify the processing of outputs
from different visual experts, while bridging the gap between image encoders
and pre-trained LLMs. In addition, we explore different positional encoding
schemes to alleviate the waste of positional encoding caused by lengthy image
feature sequences, effectively addressing the issue of position overflow and
length limitations. For instance, in our implementation, this technique
significantly reduces the positional occupancy in models like SAM, from a
substantial 4096 to a more efficient and manageable 64 or even down to 1.
Experimental results demonstrate that VLMs with multiple experts exhibit
consistently superior performance over isolated visual encoders and mark a
significant performance boost as more experts are integrated. We have
open-sourced the training code used in this report. All of these resources can
be found on our project website.