Qwen3 Embedding: Avançando na Incorporação de Texto e Reclassificação por meio de Modelos Fundamentais
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models
June 5, 2025
Autores: Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou
cs.AI
Resumo
Neste trabalho, apresentamos a série Qwen3 Embedding, um avanço significativo em relação à sua predecessora, a série GTE-Qwen, em capacidades de incorporação de texto e reranking, construída sobre os modelos base Qwen3. Aproveitando as robustas capacidades dos modelos de linguagem Qwen3 (LLMs) na compreensão e geração de texto multilíngue, nosso pipeline de treinamento inovador em múltiplos estágios combina pré-treinamento não supervisionado em larga escala com ajuste fino supervisionado em conjuntos de dados de alta qualidade. Estratégias eficazes de fusão de modelos garantem ainda mais a robustez e adaptabilidade da série Qwen3 Embedding. Durante o processo de treinamento, os LLMs Qwen3 não apenas servem como modelos base, mas também desempenham um papel crucial na síntese de dados de treinamento de alta qualidade, ricos e diversificados, abrangendo múltiplos domínios e idiomas, aprimorando assim o pipeline de treinamento. A série Qwen3 Embedding oferece uma variedade de tamanhos de modelos (0.6B, 4B, 8B) para tarefas de incorporação e reranking, atendendo a diversos cenários de implantação onde os usuários podem otimizar para eficiência ou eficácia. Avaliações empíricas demonstram que a série Qwen3 Embedding alcança resultados de ponta em diversos benchmarks. Destaca-se seu desempenho excepcional no benchmark de avaliação multilíngue MTEB para incorporação de texto, bem como em várias tarefas de recuperação, incluindo recuperação de código, recuperação cruzada de idiomas e recuperação multilíngue. Para facilitar a reprodutibilidade e promover pesquisa e desenvolvimento impulsionados pela comunidade, os modelos Qwen3 Embedding estão disponíveis publicamente sob a licença Apache 2.0.
English
In this work, we introduce the Qwen3 Embedding series, a significant
advancement over its predecessor, the GTE-Qwen series, in text embedding and
reranking capabilities, built upon the Qwen3 foundation models. Leveraging the
Qwen3 LLMs' robust capabilities in multilingual text understanding and
generation, our innovative multi-stage training pipeline combines large-scale
unsupervised pre-training with supervised fine-tuning on high-quality datasets.
Effective model merging strategies further ensure the robustness and
adaptability of the Qwen3 Embedding series. During the training process, the
Qwen3 LLMs serve not only as backbone models but also play a crucial role in
synthesizing high-quality, rich, and diverse training data across multiple
domains and languages, thus enhancing the training pipeline. The Qwen3
Embedding series offers a spectrum of model sizes (0.6B, 4B, 8B) for both
embedding and reranking tasks, addressing diverse deployment scenarios where
users can optimize for either efficiency or effectiveness. Empirical
evaluations demonstrate that the Qwen3 Embedding series achieves
state-of-the-art results across diverse benchmarks. Notably, it excels on the
multilingual evaluation benchmark MTEB for text embedding, as well as in
various retrieval tasks, including code retrieval, cross-lingual retrieval and
multilingual retrieval. To facilitate reproducibility and promote
community-driven research and development, the Qwen3 Embedding models are
publicly available under the Apache 2.0 license.