Vintern-1B: Um Modelo de Linguagem Multimodal Grande e Eficiente para o Vietnamita
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese
August 22, 2024
Autores: Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
cs.AI
Resumo
Neste relatório, apresentamos o Vintern-1B, um modelo de linguagem multimodal grande e confiável com 1 bilhão de parâmetros (MLLM) para tarefas em língua vietnamita. Ao integrar o modelo de linguagem Qwen2-0.5B-Instruct com o modelo visual InternViT-300M-448px, o Vintern-1B é otimizado para uma variedade de aplicações, incluindo reconhecimento óptico de caracteres (OCR), extração de documentos e perguntas e respostas gerais no contexto vietnamita. O modelo é ajustado em um extenso conjunto de dados com mais de 3 milhões de pares imagem-pergunta-resposta, alcançando desempenho robusto e resultados confiáveis em vários benchmarks da língua vietnamita, como OpenViVQA e ViTextVQA. O Vintern-1B é compacto o suficiente para ser facilmente integrado em diversas aplicações em dispositivos. Além disso, disponibilizamos vários conjuntos de dados vietnamitas de perguntas e respostas visuais (VQA) para texto e diagramas, criados com o Gemini 1.5 Flash. Nossos modelos estão disponíveis em: https://huggingface.co/5CD-AI/Vintern-1B-v2.
English
In this report, we introduce Vintern-1B, a reliable 1-billion-parameters
multimodal large language model (MLLM) for Vietnamese language tasks. By
integrating the Qwen2-0.5B-Instruct language model with the
InternViT-300M-448px visual model, Vintern-1B is optimized for a range of
applications, including optical character recognition (OCR), document
extraction, and general question-answering in Vietnamese context. The model is
fine-tuned on an extensive dataset of over 3 million image-question-answer
pairs, achieving robust performance and reliable results across multiple
Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is
small enough to fit into various on-device applications easily. Additionally,
we have open-sourced several Vietnamese vision question answering (VQA)
datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are
available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.Summary
AI-Generated Summary