VARCO-VISION: 韓国のビジョン言語モデルのフロンティア拡大
VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models
November 28, 2024
著者: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim
cs.AI
要旨
本論文では、オープンソースの韓国語-英語のビジョン言語モデル(VLM)、VARCO-VISIONを紹介します。我々は、ステップバイステップのトレーニング戦略を取り入れ、モデルが言語情報と視覚情報の両方を学習しながら、バックボーンモデルの知識を維持することができます。当モデルは、同等サイズのモデルと比較して、バイリンガルな画像テキスト理解と生成能力を必要とする多様な環境で優れたパフォーマンスを示しています。VARCO-VISIONは、グラウンディング、参照、OCRも可能であり、その使用法と潜在的な応用範囲を拡大しています。モデルに加えて、4つのクローズドセットおよび1つのオープンセットのベンチマークを含む5つの韓国語評価データセットを公開しています。私たちのこの画期的な成果が、VLMをトレーニングすることを目指すAI研究者に新たな機会を提供することを期待しています。VARCO-VISIONは、https://huggingface.co/NCSOFT/VARCO-VISION-14B で入手可能です。
English
In this paper, we introduce an open-source Korean-English vision-language
model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that
allows a model learn both linguistic and visual information while preserving
the backbone model's knowledge. Our model demonstrates outstanding performance
in diverse settings requiring bilingual image-text understanding and generation
abilities compared to models of similar size. VARCO-VISION is also capable of
grounding, referring, and OCR, expanding its usage and potential applications
for real-world scenarios. In addition to the model, we release five Korean
evaluation datasets, including four closed-set and one openset benchmarks. We
anticipate that our milestone will broaden the opportunities for AI researchers
aiming to train VLMs. VARCO-VISION is available at
https://huggingface.co/NCSOFT/VARCO-VISION-14B.Summary
AI-Generated Summary