ChatPaper.aiChatPaper

VARCO-VISION: Expandindo Fronteiras em Modelos Coreanos de Visão e Linguagem

VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models

November 28, 2024
Autores: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim
cs.AI

Resumo

Neste artigo, apresentamos um modelo de visão-linguagem coreano-inglês de código aberto (VLM), VARCO-VISION. Incorporamos uma estratégia de treinamento passo a passo que permite que um modelo aprenda tanto informações linguísticas quanto visuais, preservando o conhecimento do modelo base. Nosso modelo demonstra um desempenho excepcional em diversos cenários que exigem habilidades de compreensão e geração de imagem-texto bilíngue em comparação com modelos de tamanho similar. O VARCO-VISION também é capaz de ancoragem, referência e OCR, ampliando seu uso e aplicações potenciais para cenários do mundo real. Além do modelo, disponibilizamos cinco conjuntos de dados de avaliação em coreano, incluindo quatro conjuntos fechados e um conjunto aberto. Antecipamos que nosso marco ampliará as oportunidades para pesquisadores de IA que visam treinar VLMs. O VARCO-VISION está disponível em https://huggingface.co/NCSOFT/VARCO-VISION-14B.
English
In this paper, we introduce an open-source Korean-English vision-language model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that allows a model learn both linguistic and visual information while preserving the backbone model's knowledge. Our model demonstrates outstanding performance in diverse settings requiring bilingual image-text understanding and generation abilities compared to models of similar size. VARCO-VISION is also capable of grounding, referring, and OCR, expanding its usage and potential applications for real-world scenarios. In addition to the model, we release five Korean evaluation datasets, including four closed-set and one openset benchmarks. We anticipate that our milestone will broaden the opportunities for AI researchers aiming to train VLMs. VARCO-VISION is available at https://huggingface.co/NCSOFT/VARCO-VISION-14B.

Summary

AI-Generated Summary

PDF202December 5, 2024