ChatPaper.aiChatPaper

Qwen3 Embedding: Vooruitgang in Tekstembedding en Herrangschikking via Fundamentmodellen

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

June 5, 2025
Auteurs: Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou
cs.AI

Samenvatting

In dit werk introduceren we de Qwen3 Embedding-serie, een aanzienlijke vooruitgang ten opzichte van zijn voorganger, de GTE-Qwen-serie, op het gebied van tekstembedding en herrangschikkingsmogelijkheden, gebouwd op de Qwen3-basismodellen. Door gebruik te maken van de robuuste capaciteiten van de Qwen3 LLM's in meertalig tekstbegrip en -generatie, combineert onze innovatieve meerfasige trainingspijplijn grootschalige onbewaakte voorafgaande training met bewaakte afstemming op hoogwaardige datasets. Effectieve modelfusiestrategieën zorgen verder voor de robuustheid en aanpasbaarheid van de Qwen3 Embedding-serie. Tijdens het trainingsproces dienen de Qwen3 LLM's niet alleen als ruggengraatmodellen, maar spelen ze ook een cruciale rol bij het synthetiseren van hoogwaardige, rijke en diverse trainingsgegevens over meerdere domeinen en talen, waardoor de trainingspijplijn wordt versterkt. De Qwen3 Embedding-serie biedt een scala aan modelgroottes (0.6B, 4B, 8B) voor zowel embedding- als herrangschikkings taken, waardoor diverse implementatiescenario's worden aangepakt waarbij gebruikers kunnen optimaliseren voor efficiëntie of effectiviteit. Empirische evaluaties tonen aan dat de Qwen3 Embedding-serie state-of-the-art resultaten behaalt op diverse benchmarks. Opmerkelijk is dat het uitblinkt op de meertalige evaluatiebenchmark MTEB voor tekstembedding, evenals in verschillende retrievalthandelingen, waaronder codeterugwinning, cross-linguale terugwinning en meertalige terugwinning. Om reproduceerbaarheid te vergemakkelijken en gemeenschapsgedreven onderzoek en ontwikkeling te bevorderen, zijn de Qwen3 Embedding-modellen openbaar beschikbaar onder de Apache 2.0-licentie.
English
In this work, we introduce the Qwen3 Embedding series, a significant advancement over its predecessor, the GTE-Qwen series, in text embedding and reranking capabilities, built upon the Qwen3 foundation models. Leveraging the Qwen3 LLMs' robust capabilities in multilingual text understanding and generation, our innovative multi-stage training pipeline combines large-scale unsupervised pre-training with supervised fine-tuning on high-quality datasets. Effective model merging strategies further ensure the robustness and adaptability of the Qwen3 Embedding series. During the training process, the Qwen3 LLMs serve not only as backbone models but also play a crucial role in synthesizing high-quality, rich, and diverse training data across multiple domains and languages, thus enhancing the training pipeline. The Qwen3 Embedding series offers a spectrum of model sizes (0.6B, 4B, 8B) for both embedding and reranking tasks, addressing diverse deployment scenarios where users can optimize for either efficiency or effectiveness. Empirical evaluations demonstrate that the Qwen3 Embedding series achieves state-of-the-art results across diverse benchmarks. Notably, it excels on the multilingual evaluation benchmark MTEB for text embedding, as well as in various retrieval tasks, including code retrieval, cross-lingual retrieval and multilingual retrieval. To facilitate reproducibility and promote community-driven research and development, the Qwen3 Embedding models are publicly available under the Apache 2.0 license.
PDF582June 6, 2025