Qwen3-VL-Embedding e Qwen3-VL-Reranker: un framework unificato per il recupero e il ranking multimodale all'avanguardia

Abstract

In questo rapporto presentiamo le serie di modelli Qwen3-VL-Embedding e Qwen3-VL-Reranker, le ultime estensioni della famiglia Qwen costruite sul modello base Qwen3-VL. Insieme, forniscono una pipeline end-to-end per la ricerca multimodale ad alta precisione, mappando diverse modalità, inclusi testo, immagini, immagini di documenti e video, in uno spazio di rappresentazione unificato. Il modello Qwen3-VL-Embedding utilizza un paradigma di addestramento multi-stadio, che procede da un pre-addestramento contrastivo su larga scala alla distillazione del modello di reranking, per generare vettori ad alta dimensionalità semanticamente ricchi. Supporta il Matryoshka Representation Learning, consentendo dimensioni di embedding flessibili, e gestisce input fino a 32k token. A complemento, Qwen3-VL-Reranker esegue una stima della rilevanza fine per coppie query-documento utilizzando un'architettura cross-encoder con meccanismi di cross-attention. Entrambe le serie di modelli ereditano le capacità multilingue di Qwen3-VL, supportando più di 30 lingue, e vengono rilasciate in dimensioni di 2B e 8B parametri per soddisfare diverse esigenze di deployment. Le valutazioni empiriche dimostrano che la serie Qwen3-VL-Embedding raggiunge risultati allo stato dell'arte su vari benchmark di valutazione per l'embedding multimodale. Nello specifico, Qwen3-VL-Embedding-8B ottiene un punteggio complessivo di 77.8 su MMEB-V2, classificandosi al primo posto tra tutti i modelli (aggiornamento all'8 gennaio 2025). Questo rapporto presenta l'architettura, la metodologia di addestramento e le capacità pratiche della serie, dimostrandone l'efficacia in varie attività di retrieval multimodale, incluse image-text retrieval, visual question answering e video-text matching.

English

In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in 2B and 8B parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of 77.8 on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.