À quelle distance sommes-nous de GPT-4V ? Combler l'écart avec les modèles multimodaux commerciaux grâce à des suites open-source
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
April 25, 2024
Auteurs: Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao
cs.AI
Résumé
Dans ce rapport, nous présentons InternVL 1.5, un modèle de langage multimodal (MLLM) open-source visant à combler l'écart de capacités entre les modèles open-source et les modèles commerciaux propriétaires en compréhension multimodale. Nous introduisons trois améliorations simples : (1) Un encodeur visuel puissant : nous avons exploré une stratégie d'apprentissage continu pour le modèle de fondation visuelle à grande échelle -- InternViT-6B, renforçant ses capacités de compréhension visuelle et permettant son transfert et sa réutilisation dans différents LLMs. (2) Résolution dynamique élevée : nous divisons les images en tuiles allant de 1 à 40 de 448×448 pixels en fonction du rapport d'aspect et de la résolution des images d'entrée, ce qui prend en charge des entrées jusqu'à une résolution 4K. (3) Un jeu de données bilingue de haute qualité : nous avons soigneusement collecté un jeu de données bilingue de haute qualité couvrant des scènes courantes, des images de documents, et les avons annotées avec des paires de questions-réponses en anglais et en chinois, améliorant significativement les performances dans les tâches liées à l'OCR et au chinois. Nous évaluons InternVL 1.5 à travers une série de benchmarks et d'études comparatives. Par rapport aux modèles open-source et propriétaires, InternVL 1.5 montre des performances compétitives, atteignant des résultats de pointe dans 8 des 18 benchmarks. Le code a été publié à l'adresse suivante : https://github.com/OpenGVLab/InternVL.
English
In this report, we introduce InternVL 1.5, an open-source multimodal large
language model (MLLM) to bridge the capability gap between open-source and
proprietary commercial models in multimodal understanding. We introduce three
simple improvements: (1) Strong Vision Encoder: we explored a continuous
learning strategy for the large-scale vision foundation model -- InternViT-6B,
boosting its visual understanding capabilities, and making it can be
transferred and reused in different LLMs. (2) Dynamic High-Resolution: we
divide images into tiles ranging from 1 to 40 of 448times448 pixels
according to the aspect ratio and resolution of the input images, which
supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we
carefully collected a high-quality bilingual dataset that covers common scenes,
document images, and annotated them with English and Chinese question-answer
pairs, significantly enhancing performance in OCR- and Chinese-related tasks.
We evaluate InternVL 1.5 through a series of benchmarks and comparative
studies. Compared to both open-source and proprietary models, InternVL 1.5
shows competitive performance, achieving state-of-the-art results in 8 of 18
benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.Summary
AI-Generated Summary