ChatPaper.aiChatPaper

Vintern-1B: 베트남어를 위한 효율적인 멀티모달 대형 언어 모델

Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

August 22, 2024
저자: Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
cs.AI

초록

본 보고서에서는 베트남어 작업을 위한 안정적인 10억 개 파라미터의 다중모달 대형 언어 모델(Multimodal Large Language Model, MLLM)인 Vintern-1B를 소개합니다. Qwen2-0.5B-Instruct 언어 모델과 InternViT-300M-448px 시각 모델을 통합함으로써, Vintern-1B는 광학 문자 인식(OCR), 문서 추출, 베트남어 환경에서의 일반적인 질의응답을 포함한 다양한 응용 프로그램에 최적화되었습니다. 이 모델은 300만 개 이상의 이미지-질문-답변 쌍 데이터셋에서 세밀하게 조정되어, OpenViVQA 및 ViTextVQA와 같은 다양한 베트남어 언어 벤치마크에서 견고한 성능과 신뢰할 수 있는 결과를 달성했습니다. Vintern-1B는 다양한 장치 내 응용 프로그램에 쉽게 적합한 크기입니다. 더불어, Gemini 1.5 Flash로 생성된 텍스트 및 다이어그램용 베트남어 시각 질문 응답(VQA) 데이터셋을 오픈소스로 제공하였습니다. 저희 모델은 다음 링크에서 이용 가능합니다: https://huggingface.co/5CD-AI/Vintern-1B-v2.
English
In this report, we introduce Vintern-1B, a reliable 1-billion-parameters multimodal large language model (MLLM) for Vietnamese language tasks. By integrating the Qwen2-0.5B-Instruct language model with the InternViT-300M-448px visual model, Vintern-1B is optimized for a range of applications, including optical character recognition (OCR), document extraction, and general question-answering in Vietnamese context. The model is fine-tuned on an extensive dataset of over 3 million image-question-answer pairs, achieving robust performance and reliable results across multiple Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is small enough to fit into various on-device applications easily. Additionally, we have open-sourced several Vietnamese vision question answering (VQA) datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.

Summary

AI-Generated Summary

PDF244November 16, 2024