ChatPaper.aiChatPaper

Vintern-1B: ベトナム語向けの効率的なマルチモーダル大規模言語モデル

Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

August 22, 2024
著者: Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
cs.AI

要旨

このレポートでは、ベトナム語タスク向けの信頼性の高い10億パラメータのマルチモーダル大規模言語モデル(MLLM)であるVintern-1Bを紹介します。Qwen2-0.5B-Instruct言語モデルとInternViT-300M-448pxビジュアルモデルを統合することで、Vintern-1Bは、光学文字認識(OCR)、文書抽出、およびベトナム語コンテキストでの一般的な質問応答を含むさまざまなアプリケーションに最適化されています。このモデルは、300万以上の画像-質問-回答ペアからなる幅広いデータセットでファインチューニングされており、OpenViVQAやViTextVQAなどの複数のベトナム語言語ベンチマークで堅牢なパフォーマンスと信頼性の高い結果を達成しています。Vintern-1Bは、さまざまなオンデバイスアプリケーションに簡単に適合するほど小さくなっています。さらに、Gemini 1.5 Flashを使用して作成されたテキストと図表用の複数のベトナム語ビジョン質問応答(VQA)データセットをオープンソース化しています。当社のモデルは以下から入手可能です:https://huggingface.co/5CD-AI/Vintern-1B-v2.
English
In this report, we introduce Vintern-1B, a reliable 1-billion-parameters multimodal large language model (MLLM) for Vietnamese language tasks. By integrating the Qwen2-0.5B-Instruct language model with the InternViT-300M-448px visual model, Vintern-1B is optimized for a range of applications, including optical character recognition (OCR), document extraction, and general question-answering in Vietnamese context. The model is fine-tuned on an extensive dataset of over 3 million image-question-answer pairs, achieving robust performance and reliable results across multiple Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is small enough to fit into various on-device applications easily. Additionally, we have open-sourced several Vietnamese vision question answering (VQA) datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.

Summary

AI-Generated Summary

PDF244November 16, 2024