InternVL: Scalabilità dei Modelli Fondamentali per la Visione e Allineamento per Compiti Generici Visivo-Linguistici

Abstract

La crescita esponenziale dei grandi modelli linguistici (LLM) ha aperto numerose possibilità per i sistemi AGI multi-modali. Tuttavia, i progressi nei modelli di base per la visione e la visione-linguaggio, che sono anch'essi elementi cruciali degli AGI multi-modali, non hanno tenuto il passo con i LLM. In questo lavoro, progettiamo un modello di base visione-linguaggio su larga scala (InternVL), che scala il modello di base per la visione fino a 6 miliardi di parametri e lo allinea progressivamente con il grande modello linguistico, utilizzando dati immagine-testo su scala web provenienti da varie fonti. Questo modello può essere ampiamente applicato e raggiungere prestazioni all'avanguardia in compiti di percezione visiva come il riconoscimento a livello di immagine o di pixel, compiti visione-linguaggio come la classificazione zero-shot di immagini/video, il recupero zero-shot di immagini/video-testo, e il collegamento con i LLM per creare sistemi di dialogo multi-modali. Speriamo che la nostra ricerca possa contribuire allo sviluppo di grandi modelli multi-modali. Codice e modelli sono disponibili su https://github.com/OpenGVLab/InternVL.

English

The exponential growth of large language models (LLMs) has opened up numerous possibilities for multi-modal AGI systems. However, the progress in vision and vision-language foundation models, which are also critical elements of multi-modal AGI, has not kept pace with LLMs. In this work, we design a large-scale vision-language foundation model (InternVL), which scales up the vision foundation model to 6 billion parameters and progressively aligns it with the large language model, using web-scale image-text data from various sources. This model can be broadly applied to and achieve state-of-the-art performance on visual perception tasks such as image-level or pixel-level recognition, vision-language tasks such as zero-shot image/video classification, zero-shot image/video-text retrieval, and link with LLMs to create multi-modal dialogue systems. We hope that our research could contribute to the development of multi-modal large models. Code and models are available at https://github.com/OpenGVLab/InternVL.

InternVL: Scalabilità dei Modelli Fondamentali per la Visione e Allineamento per Compiti Generici Visivo-Linguistici

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Abstract

Support