Jina-VLM: Modelo Pequeño de Lenguaje y Visión Multilingüe

Resumen

Presentamos Jina-VLM, un modelo de visión y lenguaje de 2.400 millones de parámetros que logra un rendimiento de vanguardia en tareas multilingües de respuesta visual a preguntas entre los modelos de visión y lenguaje (VLM) abiertos de escala 2B. El modelo combina un codificador visual SigLIP2 con un modelo de lenguaje base Qwen3 mediante un conector de agrupación por atención que permite el procesamiento eficiente de tokens para imágenes de resolución arbitraria. En evaluaciones estándar de VQA y pruebas multilingües, Jina-VLM supera a modelos comparables manteniendo un rendimiento competitivo en tareas exclusivamente textuales.

English

We present Jina-VLM, a 2.4B parameter vision-language model that achieves state-of-the-art multilingual visual question answering among open 2B-scale VLMs. The model couples a SigLIP2 vision encoder with a Qwen3 language backbone through an attention-pooling connector that enables token-efficient processing of arbitrary-resolution images. Across standard VQA benchmarks and multilingual evaluations, Jina-VLM outperforms comparable models while preserving competitive text-only performance.

Jina-VLM: Modelo Pequeño de Lenguaje y Visión Multilingüe

Jina-VLM: Small Multilingual Vision Language Model

Resumen

Support