Vintern-1B: Эффективная мультимодальная крупномасштабная языковая модель для вьетнамского языка
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese
August 22, 2024
Авторы: Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
cs.AI
Аннотация
В данном отчете мы представляем Vintern-1B - надежную многомодельную крупную языковую модель (MLLM) с миллиардом параметров для вьетнамских языковых задач. Интегрируя языковую модель Qwen2-0.5B-Instruct с визуальной моделью InternViT-300M-448px, Vintern-1B оптимизирован для широкого спектра приложений, включая оптическое распознавание символов (OCR), извлечение документов и общий вопросно-ответный анализ во вьетнамском контексте. Модель донастроена на обширном наборе данных из более чем 3 миллионов пар изображение-вопрос-ответ, достигая надежного качества и результатов на различных вьетнамских языковых бенчмарках, таких как OpenViVQA и ViTextVQA. Vintern-1B достаточно компактен для легкой интеграции в различные приложения на устройствах. Кроме того, мы опубликовали несколько вьетнамских наборов данных для вопросов и ответов на изображения (VQA) для текста и диаграмм, созданных с помощью Gemini 1.5 Flash. Наши модели доступны по адресу: https://huggingface.co/5CD-AI/Vintern-1B-v2.
English
In this report, we introduce Vintern-1B, a reliable 1-billion-parameters
multimodal large language model (MLLM) for Vietnamese language tasks. By
integrating the Qwen2-0.5B-Instruct language model with the
InternViT-300M-448px visual model, Vintern-1B is optimized for a range of
applications, including optical character recognition (OCR), document
extraction, and general question-answering in Vietnamese context. The model is
fine-tuned on an extensive dataset of over 3 million image-question-answer
pairs, achieving robust performance and reliable results across multiple
Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is
small enough to fit into various on-device applications easily. Additionally,
we have open-sourced several Vietnamese vision question answering (VQA)
datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are
available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.Summary
AI-Generated Summary