ChatPaper.aiChatPaper

Qwen3 Embedding: Avançando na Incorporação de Texto e Reclassificação por meio de Modelos Fundamentais

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

June 5, 2025
Autores: Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou
cs.AI

Resumo

Neste trabalho, apresentamos a série Qwen3 Embedding, um avanço significativo em relação à sua predecessora, a série GTE-Qwen, em capacidades de incorporação de texto e reranking, construída sobre os modelos base Qwen3. Aproveitando as robustas capacidades dos modelos de linguagem Qwen3 (LLMs) na compreensão e geração de texto multilíngue, nosso pipeline de treinamento inovador em múltiplos estágios combina pré-treinamento não supervisionado em larga escala com ajuste fino supervisionado em conjuntos de dados de alta qualidade. Estratégias eficazes de fusão de modelos garantem ainda mais a robustez e adaptabilidade da série Qwen3 Embedding. Durante o processo de treinamento, os LLMs Qwen3 não apenas servem como modelos base, mas também desempenham um papel crucial na síntese de dados de treinamento de alta qualidade, ricos e diversificados, abrangendo múltiplos domínios e idiomas, aprimorando assim o pipeline de treinamento. A série Qwen3 Embedding oferece uma variedade de tamanhos de modelos (0.6B, 4B, 8B) para tarefas de incorporação e reranking, atendendo a diversos cenários de implantação onde os usuários podem otimizar para eficiência ou eficácia. Avaliações empíricas demonstram que a série Qwen3 Embedding alcança resultados de ponta em diversos benchmarks. Destaca-se seu desempenho excepcional no benchmark de avaliação multilíngue MTEB para incorporação de texto, bem como em várias tarefas de recuperação, incluindo recuperação de código, recuperação cruzada de idiomas e recuperação multilíngue. Para facilitar a reprodutibilidade e promover pesquisa e desenvolvimento impulsionados pela comunidade, os modelos Qwen3 Embedding estão disponíveis publicamente sob a licença Apache 2.0.
English
In this work, we introduce the Qwen3 Embedding series, a significant advancement over its predecessor, the GTE-Qwen series, in text embedding and reranking capabilities, built upon the Qwen3 foundation models. Leveraging the Qwen3 LLMs' robust capabilities in multilingual text understanding and generation, our innovative multi-stage training pipeline combines large-scale unsupervised pre-training with supervised fine-tuning on high-quality datasets. Effective model merging strategies further ensure the robustness and adaptability of the Qwen3 Embedding series. During the training process, the Qwen3 LLMs serve not only as backbone models but also play a crucial role in synthesizing high-quality, rich, and diverse training data across multiple domains and languages, thus enhancing the training pipeline. The Qwen3 Embedding series offers a spectrum of model sizes (0.6B, 4B, 8B) for both embedding and reranking tasks, addressing diverse deployment scenarios where users can optimize for either efficiency or effectiveness. Empirical evaluations demonstrate that the Qwen3 Embedding series achieves state-of-the-art results across diverse benchmarks. Notably, it excels on the multilingual evaluation benchmark MTEB for text embedding, as well as in various retrieval tasks, including code retrieval, cross-lingual retrieval and multilingual retrieval. To facilitate reproducibility and promote community-driven research and development, the Qwen3 Embedding models are publicly available under the Apache 2.0 license.
PDF582June 6, 2025