MouSi: Modelli Visione-Linguaggio con Esperti Poli-Visuali
MouSi: Poly-Visual-Expert Vision-Language Models
January 30, 2024
Autori: Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Abstract
Gli attuali modelli di visione e linguaggio su larga scala (VLMs) spesso incontrano sfide come capacità insufficienti di un singolo componente visivo e token visivi eccessivamente lunghi. Questi problemi possono limitare l'efficacia del modello nell'interpretare accuratamente informazioni visive complesse e contestuali eccessivamente estese. Affrontare queste sfide è cruciale per migliorare le prestazioni e l'applicabilità dei VLMs. Questo articolo propone l'uso della tecnica degli ensemble di esperti per sinergizzare le capacità dei singoli encoder visivi, inclusi quelli specializzati nell'abbinamento immagine-testo, OCR, segmentazione delle immagini, ecc. Questa tecnica introduce una rete di fusione per unificare l'elaborazione degli output provenienti da diversi esperti visivi, colmando il divario tra gli encoder di immagini e i modelli linguistici pre-addestrati (LLMs). Inoltre, esploriamo diversi schemi di codifica posizionale per alleviare lo spreco di codifica posizionale causato da sequenze di caratteristiche visive troppo lunghe, affrontando efficacemente il problema dell'overflow posizionale e delle limitazioni di lunghezza. Ad esempio, nella nostra implementazione, questa tecnica riduce significativamente l'occupazione posizionale in modelli come SAM, da un sostanziale 4096 a un più efficiente e gestibile 64 o addirittura fino a 1. I risultati sperimentali dimostrano che i VLMs con più esperti mostrano prestazioni costantemente superiori rispetto agli encoder visivi isolati e segnano un significativo incremento delle prestazioni man mano che vengono integrati più esperti. Abbiamo reso open-source il codice di addestramento utilizzato in questo rapporto. Tutte queste risorse possono essere trovate sul sito web del nostro progetto.
English
Current large vision-language models (VLMs) often encounter challenges such
as insufficient capabilities of a single visual component and excessively long
visual tokens. These issues can limit the model's effectiveness in accurately
interpreting complex visual information and over-lengthy contextual
information. Addressing these challenges is crucial for enhancing the
performance and applicability of VLMs. This paper proposes the use of ensemble
experts technique to synergizes the capabilities of individual visual encoders,
including those skilled in image-text matching, OCR, image segmentation, etc.
This technique introduces a fusion network to unify the processing of outputs
from different visual experts, while bridging the gap between image encoders
and pre-trained LLMs. In addition, we explore different positional encoding
schemes to alleviate the waste of positional encoding caused by lengthy image
feature sequences, effectively addressing the issue of position overflow and
length limitations. For instance, in our implementation, this technique
significantly reduces the positional occupancy in models like SAM, from a
substantial 4096 to a more efficient and manageable 64 or even down to 1.
Experimental results demonstrate that VLMs with multiple experts exhibit
consistently superior performance over isolated visual encoders and mark a
significant performance boost as more experts are integrated. We have
open-sourced the training code used in this report. All of these resources can
be found on our project website.