VARCO-VISION: Expandiendo Fronteras en Modelos Coreanos de Visión-Lenguaje
VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models
November 28, 2024
Autores: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim
cs.AI
Resumen
En este documento, presentamos un modelo de visión-lenguaje (VLM) coreano-inglés de código abierto, VARCO-VISION. Incorporamos una estrategia de entrenamiento paso a paso que permite que un modelo aprenda tanto información lingüística como visual mientras preserva el conocimiento del modelo base. Nuestro modelo demuestra un rendimiento excepcional en diversos entornos que requieren habilidades de comprensión y generación de imágenes y texto bilingües en comparación con modelos de tamaño similar. VARCO-VISION también es capaz de anclaje, referencia y OCR, ampliando su uso y posibles aplicaciones para escenarios del mundo real. Además del modelo, lanzamos cinco conjuntos de datos de evaluación en coreano, que incluyen cuatro conjuntos cerrados y uno abierto. Anticipamos que nuestro hito ampliará las oportunidades para los investigadores de IA que buscan entrenar VLMs. VARCO-VISION está disponible en https://huggingface.co/NCSOFT/VARCO-VISION-14B.
English
In this paper, we introduce an open-source Korean-English vision-language
model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that
allows a model learn both linguistic and visual information while preserving
the backbone model's knowledge. Our model demonstrates outstanding performance
in diverse settings requiring bilingual image-text understanding and generation
abilities compared to models of similar size. VARCO-VISION is also capable of
grounding, referring, and OCR, expanding its usage and potential applications
for real-world scenarios. In addition to the model, we release five Korean
evaluation datasets, including four closed-set and one openset benchmarks. We
anticipate that our milestone will broaden the opportunities for AI researchers
aiming to train VLMs. VARCO-VISION is available at
https://huggingface.co/NCSOFT/VARCO-VISION-14B.Summary
AI-Generated Summary