VARCO-VISION: Расширение границ в корейских моделях видео-языкового восприятия
VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models
November 28, 2024
Авторы: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim
cs.AI
Аннотация
В данной статье мы представляем открытую модель видео-языка корейско-английского направления (VLM) под названием VARCO-VISION. Мы внедрили стратегию обучения поэтапно, позволяющую модели учиться как лингвистической, так и визуальной информации, сохраняя знания базовой модели. Наша модель демонстрирует выдающуюся производительность в различных сценариях, требующих двуязычного понимания и генерации изображений и текста, по сравнению с моделями схожего размера. VARCO-VISION также способна на ориентацию, ссылочные действия и OCR, расширяя свои возможности и потенциальные применения в реальных сценариях. Помимо модели, мы выпустили пять корейских наборов данных для оценки, включая четыре закрытых и один открытый наборы данных для сравнения. Мы предвидим, что наш веховый момент расширит возможности для исследователей в области искусственного интеллекта, нацеленных на обучение моделей видео-языка. VARCO-VISION доступна по ссылке https://huggingface.co/NCSOFT/VARCO-VISION-14B.
English
In this paper, we introduce an open-source Korean-English vision-language
model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that
allows a model learn both linguistic and visual information while preserving
the backbone model's knowledge. Our model demonstrates outstanding performance
in diverse settings requiring bilingual image-text understanding and generation
abilities compared to models of similar size. VARCO-VISION is also capable of
grounding, referring, and OCR, expanding its usage and potential applications
for real-world scenarios. In addition to the model, we release five Korean
evaluation datasets, including four closed-set and one openset benchmarks. We
anticipate that our milestone will broaden the opportunities for AI researchers
aiming to train VLMs. VARCO-VISION is available at
https://huggingface.co/NCSOFT/VARCO-VISION-14B.Summary
AI-Generated Summary