Vintern-1B: Een efficiënt multimodaal groot taalmodel voor het Vietnamees

Samenvatting

In dit rapport introduceren we Vintern-1B, een betrouwbaar multimodaal groot taalmodel (MLLM) met 1 miljard parameters voor Vietnamese taaltaken. Door het Qwen2-0.5B-Instruct taalmodel te integreren met het InternViT-300M-448px visuele model, is Vintern-1B geoptimaliseerd voor een reeks toepassingen, waaronder optische tekenherkenning (OCR), documentextractie en algemene vraag-antwoordtaken in de Vietnamese context. Het model is verfijnd op een uitgebreide dataset van meer dan 3 miljoen afbeelding-vraag-antwoordparen, wat resulteert in robuuste prestaties en betrouwbare resultaten op meerdere Vietnamese taalbenchmarks zoals OpenViVQA en ViTextVQA. Vintern-1B is compact genoeg om eenvoudig in verschillende on-device toepassingen te passen. Daarnaast hebben we verschillende Vietnamese visuele vraag-antwoorddatasets (VQA) voor tekst en diagrammen openbaar gemaakt, die zijn gemaakt met Gemini 1.5 Flash. Onze modellen zijn beschikbaar op: https://huggingface.co/5CD-AI/Vintern-1B-v2.

English

In this report, we introduce Vintern-1B, a reliable 1-billion-parameters multimodal large language model (MLLM) for Vietnamese language tasks. By integrating the Qwen2-0.5B-Instruct language model with the InternViT-300M-448px visual model, Vintern-1B is optimized for a range of applications, including optical character recognition (OCR), document extraction, and general question-answering in Vietnamese context. The model is fine-tuned on an extensive dataset of over 3 million image-question-answer pairs, achieving robust performance and reliable results across multiple Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is small enough to fit into various on-device applications easily. Additionally, we have open-sourced several Vietnamese vision question answering (VQA) datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.

Vintern-1B: Een efficiënt multimodaal groot taalmodel voor het Vietnamees

Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

Samenvatting

Support