Qwen3-VL-Embedding и Qwen3-VL-Reranker: Унифицированная система для передового мультимодального поиска и ранжирования
Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
January 8, 2026
Авторы: Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI
Аннотация
В данном отчете представлены серии моделей Qwen3-VL-Embedding и Qwen3-VL-Reranker — новейшие расширения семейства Qwen, построенные на базовой модели Qwen3-VL. Вместе они формируют сквозной конвейер для высокоточной мультимодальной поисковой системы, проецируя различные модальности, включая текст, изображения, изображения документов и видео, в единое пространство представлений. Модель Qwen3-VL-Embedding использует многоэтапную парадигму обучения, переходя от масштабного контрастивного предварительного обучения к дистилляции модели переранжирования, для генерации семантически насыщенных высокоразмерных векторов. Она поддерживает матрёшечное представление обучающих данных, обеспечивая гибкость размерностей эмбеддингов, и обрабатывает входные последовательности длиной до 32 тысяч токенов. В дополнение к этому, Qwen3-VL-Reranker выполняет тонкую оценку релевантности для пар запрос-документ с использованием кросс-энкодера с механизмами перекрёстного внимания. Обе серии моделей наследуют мультиязычные возможности Qwen3-VL, поддерживая более 30 языков, и выпускаются в размерах 2 и 8 миллиардов параметров для удовлетворения разнообразных требований к развертыванию. Эмпирические оценки демонстрируют, что серия Qwen3-VL-Embedding достигает передовых результатов в различных бенчмарках оценки мультимодальных эмбеддингов. В частности, модель Qwen3-VL-Embedding-8B набирает общий балл 77,8 на MMEB-V2, занимая первое место среди всех моделей (по состоянию на 8 января 2025 года). В отчете описываются архитектура, методология обучения и практические возможности серии, демонстрируя их эффективность в различных задачах мультимодального поиска, включая поиск по изображениям и текстам, визуальный вопросно-ответный поиск и сопоставление видео с текстом.
English
In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in 2B and 8B parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of 77.8 on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.