ChatPaper.aiChatPaper

Vintern-1B: Un Modello Linguistico Multimodale di Grandi Dimensioni Efficiente per il Vietnamita

Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

August 22, 2024
Autori: Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
cs.AI

Abstract

In questo rapporto, presentiamo Vintern-1B, un modello linguistico multimodale di grandi dimensioni (MLLM) affidabile da 1 miliardo di parametri, progettato per compiti legati alla lingua vietnamita. Integrando il modello linguistico Qwen2-0.5B-Instruct con il modello visivo InternViT-300M-448px, Vintern-1B è ottimizzato per una gamma di applicazioni, tra cui il riconoscimento ottico dei caratteri (OCR), l'estrazione di documenti e il question-answering generale in contesti vietnamiti. Il modello è stato affinato su un ampio dataset di oltre 3 milioni di coppie immagine-domanda-risposta, ottenendo prestazioni robuste e risultati affidabili su molteplici benchmark della lingua vietnamita come OpenViVQA e ViTextVQA. Vintern-1B è sufficientemente compatto da poter essere facilmente integrato in varie applicazioni su dispositivo. Inoltre, abbiamo reso open-source diversi dataset vietnamiti per il question-answering visivo (VQA) su testi e diagrammi, creati con Gemini 1.5 Flash. I nostri modelli sono disponibili al seguente indirizzo: https://huggingface.co/5CD-AI/Vintern-1B-v2.
English
In this report, we introduce Vintern-1B, a reliable 1-billion-parameters multimodal large language model (MLLM) for Vietnamese language tasks. By integrating the Qwen2-0.5B-Instruct language model with the InternViT-300M-448px visual model, Vintern-1B is optimized for a range of applications, including optical character recognition (OCR), document extraction, and general question-answering in Vietnamese context. The model is fine-tuned on an extensive dataset of over 3 million image-question-answer pairs, achieving robust performance and reliable results across multiple Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is small enough to fit into various on-device applications easily. Additionally, we have open-sourced several Vietnamese vision question answering (VQA) datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.

Summary

AI-Generated Summary

PDF254November 16, 2024