Vintern-1B : Un modèle de langage large multimodal efficace pour le vietnamien
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese
August 22, 2024
Auteurs: Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
cs.AI
Résumé
Dans ce rapport, nous présentons Vintern-1B, un modèle de langage multimodal large (MLLM) fiable de 1 milliard de paramètres pour les tâches de langue vietnamienne. En intégrant le modèle de langage Qwen2-0.5B-Instruct avec le modèle visuel InternViT-300M-448px, Vintern-1B est optimisé pour une gamme d'applications, y compris la reconnaissance optique de caractères (OCR), l'extraction de documents et la réponse à des questions générales dans un contexte vietnamien. Le modèle est affiné sur un ensemble de données étendu de plus de 3 millions de paires image-question-réponse, atteignant des performances robustes et des résultats fiables sur plusieurs référentiels de langue vietnamienne tels que OpenViVQA et ViTextVQA. Vintern-1B est suffisamment petit pour s'intégrer facilement dans diverses applications embarquées. De plus, nous avons rendu open source plusieurs ensembles de données vietnamiens de questions-réponses visuelles (VQA) pour du texte et des diagrammes, créés avec Gemini 1.5 Flash. Nos modèles sont disponibles sur : https://huggingface.co/5CD-AI/Vintern-1B-v2.
English
In this report, we introduce Vintern-1B, a reliable 1-billion-parameters
multimodal large language model (MLLM) for Vietnamese language tasks. By
integrating the Qwen2-0.5B-Instruct language model with the
InternViT-300M-448px visual model, Vintern-1B is optimized for a range of
applications, including optical character recognition (OCR), document
extraction, and general question-answering in Vietnamese context. The model is
fine-tuned on an extensive dataset of over 3 million image-question-answer
pairs, achieving robust performance and reliable results across multiple
Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is
small enough to fit into various on-device applications easily. Additionally,
we have open-sourced several Vietnamese vision question answering (VQA)
datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are
available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.Summary
AI-Generated Summary