Vintern-1B: Een efficiënt multimodaal groot taalmodel voor het Vietnamees
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese
August 22, 2024
Auteurs: Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
cs.AI
Samenvatting
In dit rapport introduceren we Vintern-1B, een betrouwbaar multimodaal groot taalmodel (MLLM) met 1 miljard parameters voor Vietnamese taaltaken. Door het Qwen2-0.5B-Instruct taalmodel te integreren met het InternViT-300M-448px visuele model, is Vintern-1B geoptimaliseerd voor een reeks toepassingen, waaronder optische tekenherkenning (OCR), documentextractie en algemene vraag-antwoordtaken in de Vietnamese context. Het model is verfijnd op een uitgebreide dataset van meer dan 3 miljoen afbeelding-vraag-antwoordparen, wat resulteert in robuuste prestaties en betrouwbare resultaten op meerdere Vietnamese taalbenchmarks zoals OpenViVQA en ViTextVQA. Vintern-1B is compact genoeg om eenvoudig in verschillende on-device toepassingen te passen. Daarnaast hebben we verschillende Vietnamese visuele vraag-antwoorddatasets (VQA) voor tekst en diagrammen openbaar gemaakt, die zijn gemaakt met Gemini 1.5 Flash. Onze modellen zijn beschikbaar op: https://huggingface.co/5CD-AI/Vintern-1B-v2.
English
In this report, we introduce Vintern-1B, a reliable 1-billion-parameters
multimodal large language model (MLLM) for Vietnamese language tasks. By
integrating the Qwen2-0.5B-Instruct language model with the
InternViT-300M-448px visual model, Vintern-1B is optimized for a range of
applications, including optical character recognition (OCR), document
extraction, and general question-answering in Vietnamese context. The model is
fine-tuned on an extensive dataset of over 3 million image-question-answer
pairs, achieving robust performance and reliable results across multiple
Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is
small enough to fit into various on-device applications easily. Additionally,
we have open-sourced several Vietnamese vision question answering (VQA)
datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are
available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.Summary
AI-Generated Summary