VARCO-VISION : Élargir les frontières des modèles de vision-langage coréens

Résumé

Dans cet article, nous présentons un modèle vision-langage coréen-anglais open source (VLM), VARCO-VISION. Nous intégrons une stratégie d'entraînement étape par étape qui permet à un modèle d'apprendre à la fois des informations linguistiques et visuelles tout en préservant les connaissances du modèle de base. Notre modèle démontre des performances exceptionnelles dans divers contextes nécessitant des capacités de compréhension et de génération d'images-textes bilingues par rapport à des modèles de taille similaire. VARCO-VISION est également capable d'ancrer, de référencer et de reconnaître des caractères optiques (OCR), élargissant ainsi son utilisation et ses applications potentielles pour des scénarios réels. En plus du modèle, nous publions cinq ensembles de données d'évaluation coréens, comprenant quatre ensembles fermés et un ensemble ouvert. Nous anticipons que notre jalon élargira les opportunités pour les chercheurs en IA visant à entraîner des VLM. VARCO-VISION est disponible sur https://huggingface.co/NCSOFT/VARCO-VISION-14B.

English

In this paper, we introduce an open-source Korean-English vision-language model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that allows a model learn both linguistic and visual information while preserving the backbone model's knowledge. Our model demonstrates outstanding performance in diverse settings requiring bilingual image-text understanding and generation abilities compared to models of similar size. VARCO-VISION is also capable of grounding, referring, and OCR, expanding its usage and potential applications for real-world scenarios. In addition to the model, we release five Korean evaluation datasets, including four closed-set and one openset benchmarks. We anticipate that our milestone will broaden the opportunities for AI researchers aiming to train VLMs. VARCO-VISION is available at https://huggingface.co/NCSOFT/VARCO-VISION-14B.