ChatPaper.aiChatPaper

VARCO-VISION: Het verbreden van grenzen in Koreaanse visie-taalmodellen

VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models

November 28, 2024
Auteurs: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim
cs.AI

Samenvatting

In dit artikel introduceren we een open-source Koreaans-Engels visie-taalmodel (VLM), VARCO-VISION. We hebben een stapsgewijze trainingsstrategie geïncorporeerd die een model in staat stelt zowel linguïstieke als visuele informatie te leren terwijl de kennis van het basismodel behouden blijft. Ons model vertoont uitstekende prestaties in uiteenlopende omgevingen die tweetalig begrip en generatie van afbeeldingstekst vereisen in vergelijking met modellen van vergelijkbare omvang. VARCO-VISION is ook in staat tot grounding, verwijzingen en OCR, waardoor de toepassingsmogelijkheden en potentiële toepassingen voor real-world scenario's worden uitgebreid. Naast het model publiceren we vijf Koreaanse evaluatiedatasets, waaronder vier gesloten en één open benchmarks. We verwachten dat onze mijlpaal de mogelijkheden zal vergroten voor AI-onderzoekers die VLM's willen trainen. VARCO-VISION is beschikbaar op https://huggingface.co/NCSOFT/VARCO-VISION-14B.
English
In this paper, we introduce an open-source Korean-English vision-language model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that allows a model learn both linguistic and visual information while preserving the backbone model's knowledge. Our model demonstrates outstanding performance in diverse settings requiring bilingual image-text understanding and generation abilities compared to models of similar size. VARCO-VISION is also capable of grounding, referring, and OCR, expanding its usage and potential applications for real-world scenarios. In addition to the model, we release five Korean evaluation datasets, including four closed-set and one openset benchmarks. We anticipate that our milestone will broaden the opportunities for AI researchers aiming to train VLMs. VARCO-VISION is available at https://huggingface.co/NCSOFT/VARCO-VISION-14B.

Summary

AI-Generated Summary

PDF202December 5, 2024