Qwen3-VL-Embedding und Qwen3-VL-Reranker: Ein einheitliches Framework für modernste multimodale Retrieval- und Ranking-Verfahren
Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
January 8, 2026
papers.authors: Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI
papers.abstract
In diesem Bericht stellen wir die Qwen3-VL-Embedding- und Qwen3-VL-Reranker-Modellreihen vor, die neuesten Erweiterungen der Qwen-Familie, die auf dem Qwen3-VL-Basismodell aufbauen. Gemeinsam bieten sie eine End-to-End-Pipeline für hochpräzise multimodale Suche, indem sie verschiedene Modalitäten – einschließlich Text, Bilder, Dokumentenbilder und Video – in einen einheitlichen Repräsentationsraum abbilden. Das Qwen3-VL-Embedding-Modell verwendet ein mehrstufiges Trainingsparadigma, das von groß angelegtem kontrastivem Pre-Training bis zur Distillation von Reranking-Modellen fortschreitet, um semantisch reiche hochdimensionale Vektoren zu erzeugen. Es unterstützt Matryoshka Representation Learning, ermöglicht flexible Embedding-Dimensionen und verarbeitet Eingaben von bis zu 32.000 Tokens. Ergänzend dazu führt Qwen3-VL-Reranker eine feinkörnige Relevanzschätzung für Query-Dokument-Paare mittels einer Cross-Encoder-Architektur mit Cross-Attention-Mechanismen durch. Beide Modellreihen erben die multilingualen Fähigkeiten von Qwen3-VL, unterstützen mehr als 30 Sprachen und werden in Parameterumfängen von 2B und 8B veröffentlicht, um unterschiedlichen Bereitstellungsanforderungen gerecht zu werden. Empirische Auswertungen zeigen, dass die Qwen3-VL-Embedding-Reihe state-of-the-art Ergebnisse in diversen multimodalen Embedding-Benchmarks erzielt. Insbesondere erreicht Qwen3-VL-Embedding-8B einen Gesamtscore von 77,8 auf MMEB-V2 und belegt damit den ersten Platz unter allen Modellen (Stand: 8. Januar 2025). Dieser Bericht stellt die Architektur, Trainingsmethodik und praktischen Fähigkeiten der Reihe vor und demonstriert deren Wirksamkeit bei verschiedenen multimodalen Retrieval-Aufgaben, einschließlich Bild-Text-Retrieval, Visual Question Answering und Video-Text-Matching.
English
In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in 2B and 8B parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of 77.8 on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.