VARCO-VISION : Élargir les frontières des modèles de vision-langage coréens
VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models
November 28, 2024
Auteurs: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim
cs.AI
Résumé
Dans cet article, nous présentons un modèle vision-langage coréen-anglais open source (VLM), VARCO-VISION. Nous intégrons une stratégie d'entraînement étape par étape qui permet à un modèle d'apprendre à la fois des informations linguistiques et visuelles tout en préservant les connaissances du modèle de base. Notre modèle démontre des performances exceptionnelles dans divers contextes nécessitant des capacités de compréhension et de génération d'images-textes bilingues par rapport à des modèles de taille similaire. VARCO-VISION est également capable d'ancrer, de référencer et de reconnaître des caractères optiques (OCR), élargissant ainsi son utilisation et ses applications potentielles pour des scénarios réels. En plus du modèle, nous publions cinq ensembles de données d'évaluation coréens, comprenant quatre ensembles fermés et un ensemble ouvert. Nous anticipons que notre jalon élargira les opportunités pour les chercheurs en IA visant à entraîner des VLM. VARCO-VISION est disponible sur https://huggingface.co/NCSOFT/VARCO-VISION-14B.
English
In this paper, we introduce an open-source Korean-English vision-language
model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that
allows a model learn both linguistic and visual information while preserving
the backbone model's knowledge. Our model demonstrates outstanding performance
in diverse settings requiring bilingual image-text understanding and generation
abilities compared to models of similar size. VARCO-VISION is also capable of
grounding, referring, and OCR, expanding its usage and potential applications
for real-world scenarios. In addition to the model, we release five Korean
evaluation datasets, including four closed-set and one openset benchmarks. We
anticipate that our milestone will broaden the opportunities for AI researchers
aiming to train VLMs. VARCO-VISION is available at
https://huggingface.co/NCSOFT/VARCO-VISION-14B.Summary
AI-Generated Summary