Qwen3 Embedding: Avanzamenti nell'Embedding di Testo e Reranking attraverso Modelli Fondamentali
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models
June 5, 2025
Autori: Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou
cs.AI
Abstract
In questo lavoro, presentiamo la serie Qwen3 Embedding, un significativo avanzamento rispetto al suo predecessore, la serie GTE-Qwen, nelle capacità di embedding e reranking del testo, costruita sui modelli di base Qwen3. Sfruttando le robuste capacità dei modelli linguistici Qwen3 (LLMs) nella comprensione e generazione di testi multilingue, la nostra innovativa pipeline di addestramento multi-stadio combina il pre-training non supervisionato su larga scala con il fine-tuning supervisionato su dataset di alta qualità. Strategie efficaci di fusione dei modelli garantiscono ulteriormente la robustezza e l'adattabilità della serie Qwen3 Embedding. Durante il processo di addestramento, i modelli Qwen3 LLMs non solo fungono da modelli di base, ma svolgono anche un ruolo cruciale nella sintesi di dati di addestramento di alta qualità, ricchi e diversificati, attraverso più domini e lingue, migliorando così la pipeline di addestramento. La serie Qwen3 Embedding offre una gamma di dimensioni di modelli (0.6B, 4B, 8B) sia per i task di embedding che di reranking, affrontando diversi scenari di distribuzione in cui gli utenti possono ottimizzare per l'efficienza o l'efficacia. Le valutazioni empiriche dimostrano che la serie Qwen3 Embedding raggiunge risultati all'avanguardia su diversi benchmark. In particolare, eccelle sul benchmark di valutazione multilingue MTEB per l'embedding di testo, così come in vari task di retrieval, inclusi il retrieval di codice, il retrieval cross-lingue e il retrieval multilingue. Per facilitare la riproducibilità e promuovere la ricerca e lo sviluppo guidati dalla comunità, i modelli Qwen3 Embedding sono disponibili pubblicamente sotto la licenza Apache 2.0.
English
In this work, we introduce the Qwen3 Embedding series, a significant
advancement over its predecessor, the GTE-Qwen series, in text embedding and
reranking capabilities, built upon the Qwen3 foundation models. Leveraging the
Qwen3 LLMs' robust capabilities in multilingual text understanding and
generation, our innovative multi-stage training pipeline combines large-scale
unsupervised pre-training with supervised fine-tuning on high-quality datasets.
Effective model merging strategies further ensure the robustness and
adaptability of the Qwen3 Embedding series. During the training process, the
Qwen3 LLMs serve not only as backbone models but also play a crucial role in
synthesizing high-quality, rich, and diverse training data across multiple
domains and languages, thus enhancing the training pipeline. The Qwen3
Embedding series offers a spectrum of model sizes (0.6B, 4B, 8B) for both
embedding and reranking tasks, addressing diverse deployment scenarios where
users can optimize for either efficiency or effectiveness. Empirical
evaluations demonstrate that the Qwen3 Embedding series achieves
state-of-the-art results across diverse benchmarks. Notably, it excels on the
multilingual evaluation benchmark MTEB for text embedding, as well as in
various retrieval tasks, including code retrieval, cross-lingual retrieval and
multilingual retrieval. To facilitate reproducibility and promote
community-driven research and development, the Qwen3 Embedding models are
publicly available under the Apache 2.0 license.