VARCO-VISION: Erweiterung der Grenzen in koreanischen Vision-Sprach-Modellen
VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models
November 28, 2024
Autoren: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim
cs.AI
Zusammenfassung
In diesem Paper stellen wir ein Open-Source-Koreanisch-Englisches Vision-Sprachmodell (VLM), VARCO-VISION, vor. Wir integrieren eine schrittweise Schulungsstrategie, die es einem Modell ermöglicht, sowohl linguistische als auch visuelle Informationen zu erlernen, während das Grundlagenmodellwissen erhalten bleibt. Unser Modell zeigt eine herausragende Leistung in verschiedenen Einstellungen, die zweisprachige Bild-Text-Verständnis- und Generierungsfähigkeiten erfordern, im Vergleich zu Modellen ähnlicher Größe. VARCO-VISION ist auch in der Lage, Verankerung, Verweisung und OCR durchzuführen, was seine Verwendung und potenzielle Anwendungen für reale Szenarien erweitert. Neben dem Modell veröffentlichen wir fünf koreanische Evaluierungsdatensätze, darunter vier geschlossene und einen offenen Benchmark. Wir erwarten, dass unser Meilenstein die Möglichkeiten für KI-Forscher, die VLMs trainieren möchten, erweitern wird. VARCO-VISION ist verfügbar unter https://huggingface.co/NCSOFT/VARCO-VISION-14B.
English
In this paper, we introduce an open-source Korean-English vision-language
model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that
allows a model learn both linguistic and visual information while preserving
the backbone model's knowledge. Our model demonstrates outstanding performance
in diverse settings requiring bilingual image-text understanding and generation
abilities compared to models of similar size. VARCO-VISION is also capable of
grounding, referring, and OCR, expanding its usage and potential applications
for real-world scenarios. In addition to the model, we release five Korean
evaluation datasets, including four closed-set and one openset benchmarks. We
anticipate that our milestone will broaden the opportunities for AI researchers
aiming to train VLMs. VARCO-VISION is available at
https://huggingface.co/NCSOFT/VARCO-VISION-14B.Summary
AI-Generated Summary