Quanto Siamo Lontani da GPT-4V? Colmare il Divario con Modelli Multimodali Commerciali tramite Suite Open-Source
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
April 25, 2024
Autori: Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao
cs.AI
Abstract
In questo rapporto, presentiamo InternVL 1.5, un modello linguistico multimodale di grandi dimensioni (MLLM) open-source progettato per colmare il divario di capacità tra i modelli open-source e quelli commerciali proprietari nella comprensione multimodale. Introduciamo tre semplici miglioramenti: (1) **Encoder Visivo Potenziato**: abbiamo esplorato una strategia di apprendimento continuo per il modello visivo di base su larga scala -- InternViT-6B, potenziando le sue capacità di comprensione visiva e rendendolo trasferibile e riutilizzabile in diversi LLM. (2) **Risoluzione Dinamica ad Alta Definizione**: dividiamo le immagini in riquadri che vanno da 1 a 40 di 448x448 pixel in base alle proporzioni e alla risoluzione delle immagini in ingresso, supportando input fino a 4K di risoluzione. (3) **Dataset Bilingue di Alta Qualità**: abbiamo raccolto con cura un dataset bilingue di alta qualità che copre scene comuni, immagini di documenti, e le abbiamo annotate con coppie di domande e risposte in inglese e cinese, migliorando significativamente le prestazioni nei task relativi all'OCR e al cinese. Abbiamo valutato InternVL 1.5 attraverso una serie di benchmark e studi comparativi. Rispetto sia ai modelli open-source che a quelli proprietari, InternVL 1.5 mostra prestazioni competitive, raggiungendo risultati all'avanguardia in 8 dei 18 benchmark. Il codice è stato rilasciato all'indirizzo https://github.com/OpenGVLab/InternVL.
English
In this report, we introduce InternVL 1.5, an open-source multimodal large
language model (MLLM) to bridge the capability gap between open-source and
proprietary commercial models in multimodal understanding. We introduce three
simple improvements: (1) Strong Vision Encoder: we explored a continuous
learning strategy for the large-scale vision foundation model -- InternViT-6B,
boosting its visual understanding capabilities, and making it can be
transferred and reused in different LLMs. (2) Dynamic High-Resolution: we
divide images into tiles ranging from 1 to 40 of 448times448 pixels
according to the aspect ratio and resolution of the input images, which
supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we
carefully collected a high-quality bilingual dataset that covers common scenes,
document images, and annotated them with English and Chinese question-answer
pairs, significantly enhancing performance in OCR- and Chinese-related tasks.
We evaluate InternVL 1.5 through a series of benchmarks and comparative
studies. Compared to both open-source and proprietary models, InternVL 1.5
shows competitive performance, achieving state-of-the-art results in 8 of 18
benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.