MouSi: Modelos de Linguagem Visual com Múltiplos Especialistas Visuais
MouSi: Poly-Visual-Expert Vision-Language Models
January 30, 2024
Autores: Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumo
Os modelos atuais de visão e linguagem de grande escala (VLMs) frequentemente enfrentam desafios como capacidades insuficientes de um único componente visual e tokens visuais excessivamente longos. Esses problemas podem limitar a eficácia do modelo na interpretação precisa de informações visuais complexas e de contextos excessivamente longos. Resolver esses desafios é crucial para melhorar o desempenho e a aplicabilidade dos VLMs. Este artigo propõe o uso da técnica de especialistas em conjunto para sinergizar as capacidades de codificadores visuais individuais, incluindo aqueles especializados em correspondência de imagem-texto, OCR, segmentação de imagem, etc. Essa técnica introduz uma rede de fusão para unificar o processamento das saídas de diferentes especialistas visuais, ao mesmo tempo em que preenche a lacuna entre codificadores de imagem e LLMs pré-treinados. Além disso, exploramos diferentes esquemas de codificação posicional para aliviar o desperdício de codificação posicional causado por sequências longas de características de imagem, abordando efetivamente o problema de transbordamento de posição e limitações de comprimento. Por exemplo, em nossa implementação, essa técnica reduz significativamente a ocupação posicional em modelos como o SAM, de um substancial 4096 para um mais eficiente e gerenciável 64 ou até mesmo para 1. Os resultados experimentais demonstram que VLMs com múltiplos especialistas exibem desempenho consistentemente superior em comparação com codificadores visuais isolados e marcam um aumento significativo de desempenho à medida que mais especialistas são integrados. Disponibilizamos o código de treinamento usado neste relatório. Todos esses recursos podem ser encontrados no site do nosso projeto.
English
Current large vision-language models (VLMs) often encounter challenges such
as insufficient capabilities of a single visual component and excessively long
visual tokens. These issues can limit the model's effectiveness in accurately
interpreting complex visual information and over-lengthy contextual
information. Addressing these challenges is crucial for enhancing the
performance and applicability of VLMs. This paper proposes the use of ensemble
experts technique to synergizes the capabilities of individual visual encoders,
including those skilled in image-text matching, OCR, image segmentation, etc.
This technique introduces a fusion network to unify the processing of outputs
from different visual experts, while bridging the gap between image encoders
and pre-trained LLMs. In addition, we explore different positional encoding
schemes to alleviate the waste of positional encoding caused by lengthy image
feature sequences, effectively addressing the issue of position overflow and
length limitations. For instance, in our implementation, this technique
significantly reduces the positional occupancy in models like SAM, from a
substantial 4096 to a more efficient and manageable 64 or even down to 1.
Experimental results demonstrate that VLMs with multiple experts exhibit
consistently superior performance over isolated visual encoders and mark a
significant performance boost as more experts are integrated. We have
open-sourced the training code used in this report. All of these resources can
be found on our project website.