Quanto Siamo Lontani da GPT-4V? Colmare il Divario con Modelli Multimodali Commerciali tramite Suite Open-Source

Abstract

In questo rapporto, presentiamo InternVL 1.5, un modello linguistico multimodale di grandi dimensioni (MLLM) open-source progettato per colmare il divario di capacità tra i modelli open-source e quelli commerciali proprietari nella comprensione multimodale. Introduciamo tre semplici miglioramenti: (1) **Encoder Visivo Potenziato**: abbiamo esplorato una strategia di apprendimento continuo per il modello visivo di base su larga scala -- InternViT-6B, potenziando le sue capacità di comprensione visiva e rendendolo trasferibile e riutilizzabile in diversi LLM. (2) **Risoluzione Dinamica ad Alta Definizione**: dividiamo le immagini in riquadri che vanno da 1 a 40 di 448x448 pixel in base alle proporzioni e alla risoluzione delle immagini in ingresso, supportando input fino a 4K di risoluzione. (3) **Dataset Bilingue di Alta Qualità**: abbiamo raccolto con cura un dataset bilingue di alta qualità che copre scene comuni, immagini di documenti, e le abbiamo annotate con coppie di domande e risposte in inglese e cinese, migliorando significativamente le prestazioni nei task relativi all'OCR e al cinese. Abbiamo valutato InternVL 1.5 attraverso una serie di benchmark e studi comparativi. Rispetto sia ai modelli open-source che a quelli proprietari, InternVL 1.5 mostra prestazioni competitive, raggiungendo risultati all'avanguardia in 8 dei 18 benchmark. Il codice è stato rilasciato all'indirizzo https://github.com/OpenGVLab/InternVL.

English

In this report, we introduce InternVL 1.5, an open-source multimodal large language model (MLLM) to bridge the capability gap between open-source and proprietary commercial models in multimodal understanding. We introduce three simple improvements: (1) Strong Vision Encoder: we explored a continuous learning strategy for the large-scale vision foundation model -- InternViT-6B, boosting its visual understanding capabilities, and making it can be transferred and reused in different LLMs. (2) Dynamic High-Resolution: we divide images into tiles ranging from 1 to 40 of 448times448 pixels according to the aspect ratio and resolution of the input images, which supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we carefully collected a high-quality bilingual dataset that covers common scenes, document images, and annotated them with English and Chinese question-answer pairs, significantly enhancing performance in OCR- and Chinese-related tasks. We evaluate InternVL 1.5 through a series of benchmarks and comparative studies. Compared to both open-source and proprietary models, InternVL 1.5 shows competitive performance, achieving state-of-the-art results in 8 of 18 benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.

Quanto Siamo Lontani da GPT-4V? Colmare il Divario con Modelli Multimodali Commerciali tramite Suite Open-Source

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

Abstract

Support