ChatPaper.aiChatPaper

Qwen3-VL-Embedding y Qwen3-VL-Reranker: Un Marco Unificado para la Recuperación y Clasificación Multimodal de Última Generación

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

January 8, 2026
Autores: Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI

Resumen

En este informe, presentamos las series de modelos Qwen3-VL-Embedding y Qwen3-VL-Reranker, las extensiones más recientes de la familia Qwen construidas sobre el modelo base Qwen3-VL. Juntas, proporcionan una canalización integral (pipeline) para búsqueda multimodal de alta precisión, mapeando diversas modalidades —incluyendo texto, imágenes, imágenes de documentos y video— hacia un espacio de representación unificado. El modelo Qwen3-VL-Embedding emplea un paradigma de entrenamiento multietapa, que progresa desde un preentrenamiento contrastivo a gran escala hasta la destilación del modelo de reranking, para generar vectores de alta dimensión semánticamente ricos. Soporta Matryoshka Representation Learning, lo que permite dimensiones de embedding flexibles, y maneja entradas de hasta 32.000 tokens. Complementando esto, Qwen3-VL-Reranker realiza una estimación de relevancia de grano fino para pares consulta-documento utilizando una arquitectura de codificador cruzado (cross-encoder) con mecanismos de atención cruzada (cross-attention). Ambas series de modelos heredan las capacidades multilingües de Qwen3-VL, soportando más de 30 idiomas, y se publican en tamaños de 2B y 8B de parámetros para adaptarse a diversos requisitos de despliegue. Las evaluaciones empíricas demuestran que la serie Qwen3-VL-Embedding logra resultados de vanguardia en diversos puntos de referencia (benchmarks) de evaluación de embedding multimodal. Específicamente, Qwen3-VL-Embedding-8B alcanza una puntuación global de 77.8 en MMEB-V2, ocupando el primer puesto entre todos los modelos (a 8 de enero de 2025). Este informe presenta la arquitectura, la metodología de entrenamiento y las capacidades prácticas de la serie, demostrando su eficacia en diversas tareas de recuperación multimodal, como la recuperación imagen-texto, la respuesta a preguntas visuales y la coincidencia video-texto.
English
In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in 2B and 8B parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of 77.8 on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.
PDF201January 13, 2026