ChatPaper.aiChatPaper

Qwen3-VL-Embedding en Qwen3-VL-Reranker: Een Uniform Raamwerk voor State-of-the-Art Multimodale Retrieval en Rangschikking

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

January 8, 2026
Auteurs: Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI

Samenvatting

In dit rapport introduceren we de Qwen3-VL-Embedding- en Qwen3-VL-Reranker-modelreeksen, de nieuwste uitbreidingen van de Qwen-familie die zijn gebouwd op het Qwen3-VL-basismodel. Samen bieden ze een end-to-end-pijplijn voor hoogwaardige multimodale zoekopdrachten door verschillende modaliteiten, waaronder tekst, afbeeldingen, documentafbeeldingen en video, af te beelden naar een uniforme representatieruimte. Het Qwen3-VL-Embedding-model hanteert een meerfasen-trainingsparadigma, dat voortschrijdt van grootschalige contrastieve voortraining naar distillatie van het reranking-model, om semantisch rijke hoogdimensionale vectoren te genereren. Het ondersteunt Matryoshka Representation Learning, waardoor flexibele embeddingdimensies mogelijk zijn, en verwerkt inputs tot 32k tokens. Als aanvulling hierop voert Qwen3-VL-Reranker een fijnmazige relevantieschatting uit voor query-documentparen met behulp van een cross-encoder-architectuur met cross-attention-mechanismen. Beide modelreeksen erven de meertalige capaciteiten van Qwen3-VL, ondersteunen meer dan 30 talen en worden vrijgegeven in 2B- en 8B-parametergroottes om aan uiteenlopende implementatiebehoeften te voldoen. Empirische evaluaties tonen aan dat de Qwen3-VL-Embedding-reeks state-of-the-art-resultaten behaalt op diverse multimodale embedding-evaluatiebenchmarks. Specifiek behaalt Qwen3-VL-Embedding-8B een algemene score van 77,8 op MMEB-V2, waarmee het de eerste plaats inneemt onder alle modellen (per 8 januari 2025). Dit rapport presenteert de architectuur, trainingsmethodologie en praktische capaciteiten van de reeks, en toont hun effectiviteit aan bij diverse multimodale retrievaultaken, waaronder beeld-tekst-retrieval, visuele vraagbeantwoording en video-tekst-matching.
English
In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in 2B and 8B parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of 77.8 on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.
PDF422January 16, 2026