Jina-VLM: 소규모 다국어 비전 언어 모델
Jina-VLM: Small Multilingual Vision Language Model
December 3, 2025
저자: Andreas Koukounas, Georgios Mastrapas, Florian Hönicke, Sedigheh Eslami, Guillaume Roncari, Scott Martens, Han Xiao
cs.AI
초록
저희는 2B 규모 오픈 VLM 중 다국어 시각 질의응답에서 최첨단 성능을 달성하는 2.4B 파라미터 규모의 비전-언어 모델인 Jina-VLM을 소개합니다. 이 모델은 SigLIP2 비전 인코더와 Qwen3 언어 백본을 어텐션 풀링 커넥터로 결합하여 임의 해상도 이미지를 토큰 효율적으로 처리할 수 있습니다. 표준 VQA 벤치마크와 다국어 평가 전반에서 Jina-VLM은 순수 텍스트 성능의 경쟁력을 유지하면서도 동급 모델들을 능가하는 성과를 보여줍니다.
English
We present Jina-VLM, a 2.4B parameter vision-language model that achieves state-of-the-art multilingual visual question answering among open 2B-scale VLMs. The model couples a SigLIP2 vision encoder with a Qwen3 language backbone through an attention-pooling connector that enables token-efficient processing of arbitrary-resolution images. Across standard VQA benchmarks and multilingual evaluations, Jina-VLM outperforms comparable models while preserving competitive text-only performance.