ChatPaper.aiChatPaper

VARCO-VISION: Erweiterung der Grenzen in koreanischen Vision-Sprach-Modellen

VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models

November 28, 2024
Autoren: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim
cs.AI

Zusammenfassung

In diesem Paper stellen wir ein Open-Source-Koreanisch-Englisches Vision-Sprachmodell (VLM), VARCO-VISION, vor. Wir integrieren eine schrittweise Schulungsstrategie, die es einem Modell ermöglicht, sowohl linguistische als auch visuelle Informationen zu erlernen, während das Grundlagenmodellwissen erhalten bleibt. Unser Modell zeigt eine herausragende Leistung in verschiedenen Einstellungen, die zweisprachige Bild-Text-Verständnis- und Generierungsfähigkeiten erfordern, im Vergleich zu Modellen ähnlicher Größe. VARCO-VISION ist auch in der Lage, Verankerung, Verweisung und OCR durchzuführen, was seine Verwendung und potenzielle Anwendungen für reale Szenarien erweitert. Neben dem Modell veröffentlichen wir fünf koreanische Evaluierungsdatensätze, darunter vier geschlossene und einen offenen Benchmark. Wir erwarten, dass unser Meilenstein die Möglichkeiten für KI-Forscher, die VLMs trainieren möchten, erweitern wird. VARCO-VISION ist verfügbar unter https://huggingface.co/NCSOFT/VARCO-VISION-14B.
English
In this paper, we introduce an open-source Korean-English vision-language model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that allows a model learn both linguistic and visual information while preserving the backbone model's knowledge. Our model demonstrates outstanding performance in diverse settings requiring bilingual image-text understanding and generation abilities compared to models of similar size. VARCO-VISION is also capable of grounding, referring, and OCR, expanding its usage and potential applications for real-world scenarios. In addition to the model, we release five Korean evaluation datasets, including four closed-set and one openset benchmarks. We anticipate that our milestone will broaden the opportunities for AI researchers aiming to train VLMs. VARCO-VISION is available at https://huggingface.co/NCSOFT/VARCO-VISION-14B.

Summary

AI-Generated Summary

PDF202December 5, 2024