Jina-VLM: Компактная многоязыковая модель компьютерного зрения и языка
Jina-VLM: Small Multilingual Vision Language Model
December 3, 2025
Авторы: Andreas Koukounas, Georgios Mastrapas, Florian Hönicke, Sedigheh Eslami, Guillaume Roncari, Scott Martens, Han Xiao
cs.AI
Аннотация
Мы представляем Jina-VLM — мультимодальную модель с 2,4 млрд параметров, которая демонстрирует наилучшие результаты в задачах мультиязычного визуального ответа на вопросы среди открытых VLM-моделей масштаба 2 млрд. Модель объединяет визуальный кодировщик SigLIP2 с языковой основой Qwen3 через коннектор с attention-пулингом, что обеспечивает эффективную по токенам обработку изображений произвольного разрешения. На стандартных бенчмарках VQA и в мультиязычных оценках Jina-VLM превосходит сопоставимые модели, сохраняя при этом конкурентоспособную производительность в текстовых задачах.
English
We present Jina-VLM, a 2.4B parameter vision-language model that achieves state-of-the-art multilingual visual question answering among open 2B-scale VLMs. The model couples a SigLIP2 vision encoder with a Qwen3 language backbone through an attention-pooling connector that enables token-efficient processing of arbitrary-resolution images. Across standard VQA benchmarks and multilingual evaluations, Jina-VLM outperforms comparable models while preserving competitive text-only performance.