ChatPaper.aiChatPaper

Qwen3 Embedding: Avanzando en la Incrustación de Texto y Reordenación mediante Modelos Fundacionales

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

June 5, 2025
Autores: Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou
cs.AI

Resumen

En este trabajo, presentamos la serie Qwen3 Embedding, un avance significativo respecto a su predecesora, la serie GTE-Qwen, en capacidades de incrustación de texto y reordenamiento, construida sobre los modelos base de Qwen3. Aprovechando las robustas capacidades de los modelos de lenguaje grandes (LLM) de Qwen3 en la comprensión y generación de texto multilingüe, nuestra innovadora canalización de entrenamiento en múltiples etapas combina el preentrenamiento no supervisado a gran escala con el ajuste fino supervisado en conjuntos de datos de alta calidad. Las estrategias efectivas de fusión de modelos garantizan además la robustez y adaptabilidad de la serie Qwen3 Embedding. Durante el proceso de entrenamiento, los LLM de Qwen3 no solo sirven como modelos base, sino que también desempeñan un papel crucial en la síntesis de datos de entrenamiento de alta calidad, ricos y diversos en múltiples dominios y lenguajes, mejorando así la canalización de entrenamiento. La serie Qwen3 Embedding ofrece un espectro de tamaños de modelos (0.6B, 4B, 8B) tanto para tareas de incrustación como de reordenamiento, abordando diversos escenarios de implementación donde los usuarios pueden optimizar ya sea por eficiencia o efectividad. Las evaluaciones empíricas demuestran que la serie Qwen3 Embedding alcanza resultados de vanguardia en diversos puntos de referencia. Destaca especialmente en el punto de referencia de evaluación multilingüe MTEB para la incrustación de texto, así como en diversas tareas de recuperación, incluyendo la recuperación de código, la recuperación cruzada de idiomas y la recuperación multilingüe. Para facilitar la reproducibilidad y promover la investigación y desarrollo impulsados por la comunidad, los modelos de Qwen3 Embedding están disponibles públicamente bajo la licencia Apache 2.0.
English
In this work, we introduce the Qwen3 Embedding series, a significant advancement over its predecessor, the GTE-Qwen series, in text embedding and reranking capabilities, built upon the Qwen3 foundation models. Leveraging the Qwen3 LLMs' robust capabilities in multilingual text understanding and generation, our innovative multi-stage training pipeline combines large-scale unsupervised pre-training with supervised fine-tuning on high-quality datasets. Effective model merging strategies further ensure the robustness and adaptability of the Qwen3 Embedding series. During the training process, the Qwen3 LLMs serve not only as backbone models but also play a crucial role in synthesizing high-quality, rich, and diverse training data across multiple domains and languages, thus enhancing the training pipeline. The Qwen3 Embedding series offers a spectrum of model sizes (0.6B, 4B, 8B) for both embedding and reranking tasks, addressing diverse deployment scenarios where users can optimize for either efficiency or effectiveness. Empirical evaluations demonstrate that the Qwen3 Embedding series achieves state-of-the-art results across diverse benchmarks. Notably, it excels on the multilingual evaluation benchmark MTEB for text embedding, as well as in various retrieval tasks, including code retrieval, cross-lingual retrieval and multilingual retrieval. To facilitate reproducibility and promote community-driven research and development, the Qwen3 Embedding models are publicly available under the Apache 2.0 license.
PDF331June 6, 2025