GATE: Incrustación de Texto Árabe General para una Similitud Semántica Textual Mejorada con Aprendizaje de Representación Matryoshka y Entrenamiento con Pérdida Híbrida
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training
May 30, 2025
Autores: Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI
Resumen
La similitud semántica textual (STS, por sus siglas en inglés) es una tarea fundamental en el procesamiento del lenguaje natural (PLN), que permite aplicaciones en recuperación de información, agrupamiento y comprensión de relaciones semánticas entre textos. Sin embargo, la investigación en este ámbito para el idioma árabe sigue siendo limitada debido a la falta de conjuntos de datos de alta calidad y modelos preentrenados. Esta escasez de recursos ha restringido la evaluación precisa y el avance de la similitud semántica en textos árabes. Este artículo presenta los modelos General Arabic Text Embedding (GATE), que logran un rendimiento de vanguardia en la tarea de Similitud Semántica Textual dentro del benchmark MTEB. GATE aprovecha el aprendizaje de representaciones Matryoshka y un enfoque de entrenamiento con pérdida híbrida utilizando conjuntos de datos de tripletas en árabe para Inferencia en Lenguaje Natural, elementos esenciales para mejorar el rendimiento del modelo en tareas que requieren una comprensión semántica detallada. GATE supera a modelos más grandes, incluidos los de OpenAI, con una mejora del 20-25% en los benchmarks de STS, capturando eficazmente los matices semánticos únicos del árabe.
English
Semantic textual similarity (STS) is a critical task in natural language
processing (NLP), enabling applications in retrieval, clustering, and
understanding semantic relationships between texts. However, research in this
area for the Arabic language remains limited due to the lack of high-quality
datasets and pre-trained models. This scarcity of resources has restricted the
accurate evaluation and advance of semantic similarity in Arabic text. This
paper introduces General Arabic Text Embedding (GATE) models that achieve
state-of-the-art performance on the Semantic Textual Similarity task within the
MTEB benchmark. GATE leverages Matryoshka Representation Learning and a hybrid
loss training approach with Arabic triplet datasets for Natural Language
Inference, which are essential for enhancing model performance in tasks that
demand fine-grained semantic understanding. GATE outperforms larger models,
including OpenAI, with a 20-25% performance improvement on STS benchmarks,
effectively capturing the unique semantic nuances of Arabic.