MouSi: Modelos de Lenguaje-Visión con Múltiples Expertos Visuales
MouSi: Poly-Visual-Expert Vision-Language Models
January 30, 2024
Autores: Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumen
Los modelos actuales de visión y lenguaje a gran escala (VLMs, por sus siglas en inglés) suelen enfrentar desafíos como capacidades insuficientes de un único componente visual y tokens visuales excesivamente largos. Estos problemas pueden limitar la eficacia del modelo para interpretar con precisión información visual compleja y contextual demasiado extensa. Abordar estos desafíos es crucial para mejorar el rendimiento y la aplicabilidad de los VLMs. Este artículo propone el uso de la técnica de ensamblaje de expertos para potenciar sinérgicamente las capacidades de codificadores visuales individuales, incluyendo aquellos especializados en emparejamiento de imagen-texto, OCR, segmentación de imágenes, etc. Esta técnica introduce una red de fusión para unificar el procesamiento de las salidas de diferentes expertos visuales, al mismo tiempo que reduce la brecha entre los codificadores de imágenes y los modelos de lenguaje preentrenados (LLMs). Además, exploramos diferentes esquemas de codificación posicional para mitigar el desperdicio de codificación posicional causado por secuencias de características de imagen demasiado largas, abordando efectivamente el problema de desbordamiento posicional y limitaciones de longitud. Por ejemplo, en nuestra implementación, esta técnica reduce significativamente la ocupación posicional en modelos como SAM, pasando de un sustancial 4096 a un valor más eficiente y manejable de 64 o incluso hasta 1. Los resultados experimentales demuestran que los VLMs con múltiples expertos exhiben un rendimiento consistentemente superior en comparación con codificadores visuales aislados y marcan un aumento significativo en el rendimiento a medida que se integran más expertos. Hemos liberado el código de entrenamiento utilizado en este informe. Todos estos recursos pueden encontrarse en el sitio web de nuestro proyecto.
English
Current large vision-language models (VLMs) often encounter challenges such
as insufficient capabilities of a single visual component and excessively long
visual tokens. These issues can limit the model's effectiveness in accurately
interpreting complex visual information and over-lengthy contextual
information. Addressing these challenges is crucial for enhancing the
performance and applicability of VLMs. This paper proposes the use of ensemble
experts technique to synergizes the capabilities of individual visual encoders,
including those skilled in image-text matching, OCR, image segmentation, etc.
This technique introduces a fusion network to unify the processing of outputs
from different visual experts, while bridging the gap between image encoders
and pre-trained LLMs. In addition, we explore different positional encoding
schemes to alleviate the waste of positional encoding caused by lengthy image
feature sequences, effectively addressing the issue of position overflow and
length limitations. For instance, in our implementation, this technique
significantly reduces the positional occupancy in models like SAM, from a
substantial 4096 to a more efficient and manageable 64 or even down to 1.
Experimental results demonstrate that VLMs with multiple experts exhibit
consistently superior performance over isolated visual encoders and mark a
significant performance boost as more experts are integrated. We have
open-sourced the training code used in this report. All of these resources can
be found on our project website.