Qwen3 Embedding: Fortschritte in Text-Embedding und Reranking durch Foundation Models
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models
June 5, 2025
Autoren: Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou
cs.AI
Zusammenfassung
In dieser Arbeit stellen wir die Qwen3 Embedding-Serie vor, eine bedeutende Weiterentwicklung gegenüber ihrem Vorgänger, der GTE-Qwen-Serie, in den Bereichen Text-Embedding und Reranking, basierend auf den Qwen3-Foundation-Modellen. Durch die Nutzung der robusten Fähigkeiten der Qwen3-LLMs im Verständnis und der Generierung mehrsprachiger Texte kombiniert unsere innovative mehrstufige Trainingspipeline groß angelegtes unüberwachtes Vor-Training mit überwachtem Fein-Tuning auf hochwertigen Datensätzen. Effektive Modellzusammenführungsstrategien gewährleisten weiterhin die Robustheit und Anpassungsfähigkeit der Qwen3 Embedding-Serie. Während des Trainingsprozesses dienen die Qwen3-LLMs nicht nur als Rückgratmodelle, sondern spielen auch eine entscheidende Rolle bei der Synthese von hochwertigen, reichhaltigen und vielfältigen Trainingsdaten über mehrere Domänen und Sprachen hinweg, wodurch die Trainingspipeline verbessert wird. Die Qwen3 Embedding-Serie bietet eine Reihe von Modellgrößen (0,6B, 4B, 8B) für sowohl Embedding- als auch Reranking-Aufgaben, um verschiedene Einsatzszenarien abzudecken, in denen Benutzer entweder Effizienz oder Effektivität optimieren können. Empirische Auswertungen zeigen, dass die Qwen3 Embedding-Serie state-of-the-art Ergebnisse in diversen Benchmarks erzielt. Besonders hervorzuheben ist ihre Leistung auf dem mehrsprachigen Evaluierungsbenchmark MTEB für Text-Embedding sowie in verschiedenen Retrieval-Aufgaben, einschließlich Code-Retrieval, Cross-Lingual-Retrieval und mehrsprachigem Retrieval. Um die Reproduzierbarkeit zu erleichtern und die gemeinschaftsgetriebene Forschung und Entwicklung zu fördern, sind die Qwen3 Embedding-Modelle unter der Apache 2.0-Lizenz öffentlich verfügbar.
English
In this work, we introduce the Qwen3 Embedding series, a significant
advancement over its predecessor, the GTE-Qwen series, in text embedding and
reranking capabilities, built upon the Qwen3 foundation models. Leveraging the
Qwen3 LLMs' robust capabilities in multilingual text understanding and
generation, our innovative multi-stage training pipeline combines large-scale
unsupervised pre-training with supervised fine-tuning on high-quality datasets.
Effective model merging strategies further ensure the robustness and
adaptability of the Qwen3 Embedding series. During the training process, the
Qwen3 LLMs serve not only as backbone models but also play a crucial role in
synthesizing high-quality, rich, and diverse training data across multiple
domains and languages, thus enhancing the training pipeline. The Qwen3
Embedding series offers a spectrum of model sizes (0.6B, 4B, 8B) for both
embedding and reranking tasks, addressing diverse deployment scenarios where
users can optimize for either efficiency or effectiveness. Empirical
evaluations demonstrate that the Qwen3 Embedding series achieves
state-of-the-art results across diverse benchmarks. Notably, it excels on the
multilingual evaluation benchmark MTEB for text embedding, as well as in
various retrieval tasks, including code retrieval, cross-lingual retrieval and
multilingual retrieval. To facilitate reproducibility and promote
community-driven research and development, the Qwen3 Embedding models are
publicly available under the Apache 2.0 license.