ChatPaper.aiChatPaper

VARCO-VISION : Élargir les frontières des modèles de vision-langage coréens

VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models

November 28, 2024
Auteurs: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim
cs.AI

Résumé

Dans cet article, nous présentons un modèle vision-langage coréen-anglais open source (VLM), VARCO-VISION. Nous intégrons une stratégie d'entraînement étape par étape qui permet à un modèle d'apprendre à la fois des informations linguistiques et visuelles tout en préservant les connaissances du modèle de base. Notre modèle démontre des performances exceptionnelles dans divers contextes nécessitant des capacités de compréhension et de génération d'images-textes bilingues par rapport à des modèles de taille similaire. VARCO-VISION est également capable d'ancrer, de référencer et de reconnaître des caractères optiques (OCR), élargissant ainsi son utilisation et ses applications potentielles pour des scénarios réels. En plus du modèle, nous publions cinq ensembles de données d'évaluation coréens, comprenant quatre ensembles fermés et un ensemble ouvert. Nous anticipons que notre jalon élargira les opportunités pour les chercheurs en IA visant à entraîner des VLM. VARCO-VISION est disponible sur https://huggingface.co/NCSOFT/VARCO-VISION-14B.
English
In this paper, we introduce an open-source Korean-English vision-language model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that allows a model learn both linguistic and visual information while preserving the backbone model's knowledge. Our model demonstrates outstanding performance in diverse settings requiring bilingual image-text understanding and generation abilities compared to models of similar size. VARCO-VISION is also capable of grounding, referring, and OCR, expanding its usage and potential applications for real-world scenarios. In addition to the model, we release five Korean evaluation datasets, including four closed-set and one openset benchmarks. We anticipate that our milestone will broaden the opportunities for AI researchers aiming to train VLMs. VARCO-VISION is available at https://huggingface.co/NCSOFT/VARCO-VISION-14B.

Summary

AI-Generated Summary

PDF202December 5, 2024