Vintern-1B: Un Modelo de Lenguaje Grande Multimodal Eficiente para el Vietnamita
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese
August 22, 2024
Autores: Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
cs.AI
Resumen
En este informe, presentamos Vintern-1B, un modelo de lenguaje grande multimodal confiable de mil millones de parámetros (MLLM) para tareas en idioma vietnamita. Al integrar el modelo de lenguaje Qwen2-0.5B-Instruct con el modelo visual InternViT-300M-448px, Vintern-1B está optimizado para una variedad de aplicaciones, incluyendo reconocimiento óptico de caracteres (OCR), extracción de documentos y respuesta a preguntas generales en el contexto vietnamita. El modelo se ajusta finamente en un extenso conjunto de datos de más de 3 millones de pares imagen-pregunta-respuesta, logrando un rendimiento sólido y resultados confiables en múltiples puntos de referencia del idioma vietnamita como OpenViVQA y ViTextVQA. Vintern-1B es lo suficientemente pequeño como para adaptarse fácilmente a diversas aplicaciones en dispositivos. Además, hemos liberado varios conjuntos de datos vietnamitas de respuesta a preguntas visuales (VQA) para texto y diagramas, creados con Gemini 1.5 Flash. Nuestros modelos están disponibles en: https://huggingface.co/5CD-AI/Vintern-1B-v2.
English
In this report, we introduce Vintern-1B, a reliable 1-billion-parameters
multimodal large language model (MLLM) for Vietnamese language tasks. By
integrating the Qwen2-0.5B-Instruct language model with the
InternViT-300M-448px visual model, Vintern-1B is optimized for a range of
applications, including optical character recognition (OCR), document
extraction, and general question-answering in Vietnamese context. The model is
fine-tuned on an extensive dataset of over 3 million image-question-answer
pairs, achieving robust performance and reliable results across multiple
Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is
small enough to fit into various on-device applications easily. Additionally,
we have open-sourced several Vietnamese vision question answering (VQA)
datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are
available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.Summary
AI-Generated Summary