Jina-VLM: Modello Visivo Linguistico Multilingue di Piccole Dimensioni
Jina-VLM: Small Multilingual Vision Language Model
December 3, 2025
Autori: Andreas Koukounas, Georgios Mastrapas, Florian Hönicke, Sedigheh Eslami, Guillaume Roncari, Scott Martens, Han Xiao
cs.AI
Abstract
Presentiamo Jina-VLM, un modello visione-linguaggio da 2,4 miliardi di parametri che raggiunge risultati all'avanguardia nel visual question answering multilingue tra i VLM open source di scala paragonabile (2B). Il modello combina un encoder visivo SigLIP2 con un backbone linguistico Qwen3 tramite un connettore a pooling d'attenzione che consente l'elaborazione efficiente di immagini a risoluzione arbitraria. Su benchmark VQA standard e valutazioni multilingue, Jina-VLM supera i modelli comparabili mantenendo prestazioni competitive in compiti puramente testuali.
English
We present Jina-VLM, a 2.4B parameter vision-language model that achieves state-of-the-art multilingual visual question answering among open 2B-scale VLMs. The model couples a SigLIP2 vision encoder with a Qwen3 language backbone through an attention-pooling connector that enables token-efficient processing of arbitrary-resolution images. Across standard VQA benchmarks and multilingual evaluations, Jina-VLM outperforms comparable models while preserving competitive text-only performance.