Qwen3 Embedding : Progrès dans l'incorporation de texte et le réordonnancement grâce aux modèles de fondation
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models
June 5, 2025
Auteurs: Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou
cs.AI
Résumé
Dans ce travail, nous présentons la série Qwen3 Embedding, une avancée significative par rapport à son prédécesseur, la série GTE-Qwen, en matière de capacités d'incorporation de texte et de reranking, construite sur les modèles de base Qwen3. En exploitant les capacités robustes des modèles de langage Qwen3 (LLMs) dans la compréhension et la génération de textes multilingues, notre pipeline de formation innovant en plusieurs étapes combine un pré-entraînement non supervisé à grande échelle avec un ajustement fin supervisé sur des ensembles de données de haute qualité. Des stratégies efficaces de fusion de modèles garantissent en outre la robustesse et l'adaptabilité de la série Qwen3 Embedding. Durant le processus de formation, les LLMs Qwen3 servent non seulement de modèles de base, mais jouent également un rôle crucial dans la synthèse de données d'entraînement de haute qualité, riches et diversifiées, couvrant plusieurs domaines et langues, améliorant ainsi le pipeline de formation. La série Qwen3 Embedding propose une gamme de tailles de modèles (0,6B, 4B, 8B) pour les tâches d'incorporation et de reranking, répondant à divers scénarios de déploiement où les utilisateurs peuvent optimiser soit l'efficacité, soit l'efficience. Les évaluations empiriques démontrent que la série Qwen3 Embedding atteint des résultats de pointe sur divers benchmarks. Elle excelle notamment sur le benchmark d'évaluation multilingue MTEB pour l'incorporation de texte, ainsi que dans diverses tâches de recherche, y compris la recherche de code, la recherche multilingue et la recherche translinguale. Pour faciliter la reproductibilité et promouvoir la recherche et le développement communautaires, les modèles Qwen3 Embedding sont disponibles publiquement sous la licence Apache 2.0.
English
In this work, we introduce the Qwen3 Embedding series, a significant
advancement over its predecessor, the GTE-Qwen series, in text embedding and
reranking capabilities, built upon the Qwen3 foundation models. Leveraging the
Qwen3 LLMs' robust capabilities in multilingual text understanding and
generation, our innovative multi-stage training pipeline combines large-scale
unsupervised pre-training with supervised fine-tuning on high-quality datasets.
Effective model merging strategies further ensure the robustness and
adaptability of the Qwen3 Embedding series. During the training process, the
Qwen3 LLMs serve not only as backbone models but also play a crucial role in
synthesizing high-quality, rich, and diverse training data across multiple
domains and languages, thus enhancing the training pipeline. The Qwen3
Embedding series offers a spectrum of model sizes (0.6B, 4B, 8B) for both
embedding and reranking tasks, addressing diverse deployment scenarios where
users can optimize for either efficiency or effectiveness. Empirical
evaluations demonstrate that the Qwen3 Embedding series achieves
state-of-the-art results across diverse benchmarks. Notably, it excels on the
multilingual evaluation benchmark MTEB for text embedding, as well as in
various retrieval tasks, including code retrieval, cross-lingual retrieval and
multilingual retrieval. To facilitate reproducibility and promote
community-driven research and development, the Qwen3 Embedding models are
publicly available under the Apache 2.0 license.