Qwen3-VL-Embedding e Qwen3-VL-Reranker: Um Framework Unificado para Recuperação e Ranqueamento Multimodal de Última Geração

Resumo

Neste relatório, apresentamos as séries de modelos Qwen3-VL-Embedding e Qwen3-VL-Reranker, as mais recentes extensões da família Qwen construídas sobre o modelo base Qwen3-VL. Em conjunto, elas fornecem um *pipeline* de ponta a ponta para busca multimodal de alta precisão, mapeando diversas modalidades — incluindo texto, imagens, imagens de documentos e vídeo — para um espaço de representação unificado. O modelo Qwen3-VL-Embedding emprega um paradigma de treinamento multietapas, progredindo de um pré-treinamento contrastivo em larga escala para a destilação do modelo de rerranqueamento, a fim de gerar vetores de alta dimensão semanticamente ricos. Ele suporta *Matryoshka Representation Learning*, permitindo dimensões de *embedding* flexíveis, e processa entradas de até 32 mil *tokens*. Complementando isso, o Qwen3-VL-Reranker realiza uma estimativa de relevância refinada para pares consulta-documento usando uma arquitetura de *cross-encoder* com mecanismos de *cross-attention*. Ambas as séries de modelos herdam as capacidades multilíngues do Qwen3-VL, suportando mais de 30 idiomas, e são lançadas nos tamanhos de 2B e 8B de parâmetros para acomodar diversas necessidades de implantação. Avaliações empíricas demonstram que a série Qwen3-VL-Embedding alcança resultados de última geração em diversos benchmarks de avaliação de *embedding* multimodal. Especificamente, o Qwen3-VL-Embedding-8B atinge uma pontuação geral de 77,8 no MMEB-V2, ocupando o primeiro lugar entre todos os modelos (em 8 de janeiro de 2025). Este relatório apresenta a arquitetura, a metodologia de treinamento e as capacidades práticas da série, demonstrando sua eficácia em várias tarefas de recuperação multimodal, incluindo recuperação imagem-texto, resposta a perguntas visuais e correspondência vídeo-texto.

English

In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in 2B and 8B parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of 77.8 on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.

Qwen3-VL-Embedding e Qwen3-VL-Reranker: Um Framework Unificado para Recuperação e Ranqueamento Multimodal de Última Geração

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

Resumo

Support