ChatPaper.aiChatPaper

MouSi: 다중 시각 전문가 시각-언어 모델

MouSi: Poly-Visual-Expert Vision-Language Models

January 30, 2024
저자: Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI

초록

현재의 대규모 시각-언어 모델(VLMs)은 종종 단일 시각 구성 요소의 능력 부족과 과도하게 긴 시각 토큰과 같은 문제에 직면합니다. 이러한 문제는 복잡한 시각 정보와 지나치게 긴 문맥 정보를 정확하게 해석하는 모델의 효율성을 제한할 수 있습니다. 이러한 문제를 해결하는 것은 VLMs의 성능과 적용 가능성을 향상시키는 데 중요합니다. 본 논문은 이미지-텍스트 매칭, OCR, 이미지 세분화 등에 능숙한 개별 시각 인코더들의 능력을 시너지 효과적으로 결합하기 위해 앙상블 전문가 기법을 제안합니다. 이 기법은 다양한 시각 전문가들의 출력을 통합 처리하기 위한 융합 네트워크를 도입함과 동시에 이미지 인코더와 사전 훈련된 대형 언어 모델(LLMs) 간의 간극을 메웁니다. 또한, 우리는 긴 이미지 특징 시퀀스로 인한 위치 인코딩의 낭비를 완화하기 위해 다양한 위치 인코딩 방식을 탐구하여 위치 오버플로우와 길이 제한 문제를 효과적으로 해결합니다. 예를 들어, 우리의 구현에서 이 기법은 SAM과 같은 모델에서 위치 점유를 상당한 4096에서 더 효율적이고 관리 가능한 64 또는 심지어 1로 크게 줄입니다. 실험 결과는 여러 전문가를 갖춘 VLMs이 고립된 시각 인코더들보다 지속적으로 우수한 성능을 보이며, 더 많은 전문가가 통합될수록 성능이 크게 향상됨을 보여줍니다. 우리는 이 보고서에서 사용된 훈련 코드를 오픈소스로 공개했습니다. 이 모든 리소스는 우리 프로젝트 웹사이트에서 확인할 수 있습니다.
English
Current large vision-language models (VLMs) often encounter challenges such as insufficient capabilities of a single visual component and excessively long visual tokens. These issues can limit the model's effectiveness in accurately interpreting complex visual information and over-lengthy contextual information. Addressing these challenges is crucial for enhancing the performance and applicability of VLMs. This paper proposes the use of ensemble experts technique to synergizes the capabilities of individual visual encoders, including those skilled in image-text matching, OCR, image segmentation, etc. This technique introduces a fusion network to unify the processing of outputs from different visual experts, while bridging the gap between image encoders and pre-trained LLMs. In addition, we explore different positional encoding schemes to alleviate the waste of positional encoding caused by lengthy image feature sequences, effectively addressing the issue of position overflow and length limitations. For instance, in our implementation, this technique significantly reduces the positional occupancy in models like SAM, from a substantial 4096 to a more efficient and manageable 64 or even down to 1. Experimental results demonstrate that VLMs with multiple experts exhibit consistently superior performance over isolated visual encoders and mark a significant performance boost as more experts are integrated. We have open-sourced the training code used in this report. All of these resources can be found on our project website.
PDF91December 15, 2024