Vintern-1B: Ein effizientes multimodales großes Sprachmodell für Vietnamesisch
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese
August 22, 2024
Autoren: Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
cs.AI
Zusammenfassung
In diesem Bericht stellen wir Vintern-1B vor, ein zuverlässiges multimodales großes Sprachmodell mit einer Milliarde Parametern (MLLM) für vietnamesische Sprachaufgaben. Durch die Integration des Qwen2-0.5B-Instruct-Sprachmodells mit dem InternViT-300M-448px-Visionsmodell ist Vintern-1B für eine Vielzahl von Anwendungen optimiert, darunter optische Zeichenerkennung (OCR), Dokumentextraktion und allgemeine Frage-Antwort-Aufgaben im vietnamesischen Kontext. Das Modell wird auf einem umfangreichen Datensatz von über 3 Millionen Bild-Frage-Antwort-Paaren feinabgestimmt, was zu einer robusten Leistung und zuverlässigen Ergebnissen in verschiedenen vietnamesischen Sprachbenchmarks wie OpenViVQA und ViTextVQA führt. Vintern-1B ist klein genug, um problemlos in verschiedene On-Device-Anwendungen integriert zu werden. Darüber hinaus haben wir mehrere vietnamesische Vision-Frage-Antwort (VQA)-Datensätze für Texte und Diagramme, erstellt mit Gemini 1.5 Flash, als Open Source veröffentlicht. Unsere Modelle sind verfügbar unter: https://huggingface.co/5CD-AI/Vintern-1B-v2.
English
In this report, we introduce Vintern-1B, a reliable 1-billion-parameters
multimodal large language model (MLLM) for Vietnamese language tasks. By
integrating the Qwen2-0.5B-Instruct language model with the
InternViT-300M-448px visual model, Vintern-1B is optimized for a range of
applications, including optical character recognition (OCR), document
extraction, and general question-answering in Vietnamese context. The model is
fine-tuned on an extensive dataset of over 3 million image-question-answer
pairs, achieving robust performance and reliable results across multiple
Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is
small enough to fit into various on-device applications easily. Additionally,
we have open-sourced several Vietnamese vision question answering (VQA)
datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are
available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.Summary
AI-Generated Summary