ChatPaper.aiChatPaper

Vintern-1B: Een efficiënt multimodaal groot taalmodel voor het Vietnamees

Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

August 22, 2024
Auteurs: Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
cs.AI

Samenvatting

In dit rapport introduceren we Vintern-1B, een betrouwbaar multimodaal groot taalmodel (MLLM) met 1 miljard parameters voor Vietnamese taaltaken. Door het Qwen2-0.5B-Instruct taalmodel te integreren met het InternViT-300M-448px visuele model, is Vintern-1B geoptimaliseerd voor een reeks toepassingen, waaronder optische tekenherkenning (OCR), documentextractie en algemene vraag-antwoordtaken in de Vietnamese context. Het model is verfijnd op een uitgebreide dataset van meer dan 3 miljoen afbeelding-vraag-antwoordparen, wat resulteert in robuuste prestaties en betrouwbare resultaten op meerdere Vietnamese taalbenchmarks zoals OpenViVQA en ViTextVQA. Vintern-1B is compact genoeg om eenvoudig in verschillende on-device toepassingen te passen. Daarnaast hebben we verschillende Vietnamese visuele vraag-antwoorddatasets (VQA) voor tekst en diagrammen openbaar gemaakt, die zijn gemaakt met Gemini 1.5 Flash. Onze modellen zijn beschikbaar op: https://huggingface.co/5CD-AI/Vintern-1B-v2.
English
In this report, we introduce Vintern-1B, a reliable 1-billion-parameters multimodal large language model (MLLM) for Vietnamese language tasks. By integrating the Qwen2-0.5B-Instruct language model with the InternViT-300M-448px visual model, Vintern-1B is optimized for a range of applications, including optical character recognition (OCR), document extraction, and general question-answering in Vietnamese context. The model is fine-tuned on an extensive dataset of over 3 million image-question-answer pairs, achieving robust performance and reliable results across multiple Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is small enough to fit into various on-device applications easily. Additionally, we have open-sourced several Vietnamese vision question answering (VQA) datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.

Summary

AI-Generated Summary

PDF244November 16, 2024