MouSi: Modelli Visione-Linguaggio con Esperti Poli-Visuali

Abstract

Gli attuali modelli di visione e linguaggio su larga scala (VLMs) spesso incontrano sfide come capacità insufficienti di un singolo componente visivo e token visivi eccessivamente lunghi. Questi problemi possono limitare l'efficacia del modello nell'interpretare accuratamente informazioni visive complesse e contestuali eccessivamente estese. Affrontare queste sfide è cruciale per migliorare le prestazioni e l'applicabilità dei VLMs. Questo articolo propone l'uso della tecnica degli ensemble di esperti per sinergizzare le capacità dei singoli encoder visivi, inclusi quelli specializzati nell'abbinamento immagine-testo, OCR, segmentazione delle immagini, ecc. Questa tecnica introduce una rete di fusione per unificare l'elaborazione degli output provenienti da diversi esperti visivi, colmando il divario tra gli encoder di immagini e i modelli linguistici pre-addestrati (LLMs). Inoltre, esploriamo diversi schemi di codifica posizionale per alleviare lo spreco di codifica posizionale causato da sequenze di caratteristiche visive troppo lunghe, affrontando efficacemente il problema dell'overflow posizionale e delle limitazioni di lunghezza. Ad esempio, nella nostra implementazione, questa tecnica riduce significativamente l'occupazione posizionale in modelli come SAM, da un sostanziale 4096 a un più efficiente e gestibile 64 o addirittura fino a 1. I risultati sperimentali dimostrano che i VLMs con più esperti mostrano prestazioni costantemente superiori rispetto agli encoder visivi isolati e segnano un significativo incremento delle prestazioni man mano che vengono integrati più esperti. Abbiamo reso open-source il codice di addestramento utilizzato in questo rapporto. Tutte queste risorse possono essere trovate sul sito web del nostro progetto.

English

Current large vision-language models (VLMs) often encounter challenges such as insufficient capabilities of a single visual component and excessively long visual tokens. These issues can limit the model's effectiveness in accurately interpreting complex visual information and over-lengthy contextual information. Addressing these challenges is crucial for enhancing the performance and applicability of VLMs. This paper proposes the use of ensemble experts technique to synergizes the capabilities of individual visual encoders, including those skilled in image-text matching, OCR, image segmentation, etc. This technique introduces a fusion network to unify the processing of outputs from different visual experts, while bridging the gap between image encoders and pre-trained LLMs. In addition, we explore different positional encoding schemes to alleviate the waste of positional encoding caused by lengthy image feature sequences, effectively addressing the issue of position overflow and length limitations. For instance, in our implementation, this technique significantly reduces the positional occupancy in models like SAM, from a substantial 4096 to a more efficient and manageable 64 or even down to 1. Experimental results demonstrate that VLMs with multiple experts exhibit consistently superior performance over isolated visual encoders and mark a significant performance boost as more experts are integrated. We have open-sourced the training code used in this report. All of these resources can be found on our project website.

MouSi: Modelli Visione-Linguaggio con Esperti Poli-Visuali

MouSi: Poly-Visual-Expert Vision-Language Models

Abstract

Support