Qwen3-VL-Embedding et Qwen3-VL-Reranker : Un cadre unifié pour la recherche et le classement multimodaux de pointe
Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
January 8, 2026
papers.authors: Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI
papers.abstract
Dans ce rapport, nous présentons les séries de modèles Qwen3-VL-Embedding et Qwen3-VL-Reranker, les dernières extensions de la famille Qwen construites sur le modèle de base Qwen3-VL. Ensemble, elles fournissent un pipeline de bout en bout pour la recherche multimodale de haute précision en projetant des modalités diverses, incluant le texte, les images, les images de documents et la vidéo, dans un espace de représentation unifié. Le modèle Qwen3-VL-Embedding utilise un paradigme d'entraînement multi-étapes, progressant d'un pré-entraînement contrastif à grande échelle vers une distillation de modèle de reranking, pour générer des vecteurs haute dimension sémantiquement riches. Il prend en charge l'apprentissage de représentations Matriochka (Matryoshka Representation Learning), permettant des dimensions d'embedding flexibles, et gère des entrées allant jusqu'à 32k tokens. En complément, Qwen3-VL-Reranker effectue une estimation de la pertinence fine pour des paires requête-document en utilisant une architecture cross-encoder avec des mécanismes d'attention croisée (cross-attention). Les deux séries de modèles héritent des capacités multilingues de Qwen3-VL, prenant en charge plus de 30 langues, et sont publiées en tailles de 2B et 8B de paramètres pour répondre à divers besoins de déploiement. Les évaluations empiriques démontrent que la série Qwen3-VL-Embedding obtient des résultats de pointe sur divers benchmarks d'évaluation d'embedding multimodaux. Spécifiquement, Qwen3-VL-Embedding-8B atteint un score global de 77.8 sur MMEB-V2, se classant première parmi tous les modèles (au 8 janvier 2025). Ce rapport présente l'architecture, la méthodologie d'entraînement et les capacités pratiques de la série, démontrant leur efficacité sur diverses tâches de recherche multimodale, incluant la recherche image-texte, la réponse visuelle à des questions et l'appariement vidéo-texte.
English
In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in 2B and 8B parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of 77.8 on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.