InternVL: Het opschalen van visuele basis modellen en afstemmen voor generieke visueel-linguïstische taken

Samenvatting

De exponentiële groei van grote taalmodelen (LLMs) heeft talloze mogelijkheden geopend voor multi-modale AGI-systemen. Echter, de vooruitgang in visie- en visie-taal funderingsmodellen, die ook cruciale elementen zijn van multi-modale AGI, heeft niet gelijke tred gehouden met LLMs. In dit werk ontwerpen we een grootschalig visie-taal funderingsmodel (InternVL), dat het visie-funderingsmodel opschaalt naar 6 miljard parameters en het progressief afstemt op het grote taalmodel, waarbij gebruik wordt gemaakt van web-schaal beeld-tekst data uit verschillende bronnen. Dit model kan breed worden toegepast en behaalt state-of-the-art prestaties op visuele waarnemingstaken zoals beeldniveau- of pixel-niveau herkenning, visie-taal taken zoals zero-shot beeld/video classificatie, zero-shot beeld/video-tekst retrieval, en het koppelen met LLMs om multi-modale dialoogsystemen te creëren. We hopen dat ons onderzoek kan bijdragen aan de ontwikkeling van multi-modale grote modellen. Code en modellen zijn beschikbaar op https://github.com/OpenGVLab/InternVL.

English

The exponential growth of large language models (LLMs) has opened up numerous possibilities for multi-modal AGI systems. However, the progress in vision and vision-language foundation models, which are also critical elements of multi-modal AGI, has not kept pace with LLMs. In this work, we design a large-scale vision-language foundation model (InternVL), which scales up the vision foundation model to 6 billion parameters and progressively aligns it with the large language model, using web-scale image-text data from various sources. This model can be broadly applied to and achieve state-of-the-art performance on visual perception tasks such as image-level or pixel-level recognition, vision-language tasks such as zero-shot image/video classification, zero-shot image/video-text retrieval, and link with LLMs to create multi-modal dialogue systems. We hope that our research could contribute to the development of multi-modal large models. Code and models are available at https://github.com/OpenGVLab/InternVL.

InternVL: Het opschalen van visuele basis modellen en afstemmen voor generieke visueel-linguïstische taken

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Samenvatting

Support