VARCO-VISION: Het verbreden van grenzen in Koreaanse visie-taalmodellen
VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models
November 28, 2024
Auteurs: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim
cs.AI
Samenvatting
In dit artikel introduceren we een open-source Koreaans-Engels visie-taalmodel (VLM), VARCO-VISION. We hebben een stapsgewijze trainingsstrategie geïncorporeerd die een model in staat stelt zowel linguïstieke als visuele informatie te leren terwijl de kennis van het basismodel behouden blijft. Ons model vertoont uitstekende prestaties in uiteenlopende omgevingen die tweetalig begrip en generatie van afbeeldingstekst vereisen in vergelijking met modellen van vergelijkbare omvang. VARCO-VISION is ook in staat tot grounding, verwijzingen en OCR, waardoor de toepassingsmogelijkheden en potentiële toepassingen voor real-world scenario's worden uitgebreid. Naast het model publiceren we vijf Koreaanse evaluatiedatasets, waaronder vier gesloten en één open benchmarks. We verwachten dat onze mijlpaal de mogelijkheden zal vergroten voor AI-onderzoekers die VLM's willen trainen. VARCO-VISION is beschikbaar op https://huggingface.co/NCSOFT/VARCO-VISION-14B.
English
In this paper, we introduce an open-source Korean-English vision-language
model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that
allows a model learn both linguistic and visual information while preserving
the backbone model's knowledge. Our model demonstrates outstanding performance
in diverse settings requiring bilingual image-text understanding and generation
abilities compared to models of similar size. VARCO-VISION is also capable of
grounding, referring, and OCR, expanding its usage and potential applications
for real-world scenarios. In addition to the model, we release five Korean
evaluation datasets, including four closed-set and one openset benchmarks. We
anticipate that our milestone will broaden the opportunities for AI researchers
aiming to train VLMs. VARCO-VISION is available at
https://huggingface.co/NCSOFT/VARCO-VISION-14B.Summary
AI-Generated Summary