GATE : Encodage de texte arabe général pour une similarité sémantique textuelle améliorée avec apprentissage de représentations Matryoshka et entraînement par fonction de perte hybride
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training
May 30, 2025
Auteurs: Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI
Résumé
La similarité sémantique textuelle (STS) est une tâche cruciale en traitement automatique du langage naturel (TALN), permettant des applications dans la recherche d'information, le clustering et la compréhension des relations sémantiques entre textes. Cependant, la recherche dans ce domaine pour la langue arabe reste limitée en raison du manque de jeux de données de haute qualité et de modèles pré-entraînés. Cette pénurie de ressources a restreint l'évaluation précise et l'avancement de la similarité sémantique dans les textes arabes. Cet article présente les modèles General Arabic Text Embedding (GATE), qui atteignent des performances de pointe sur la tâche de similarité sémantique textuelle dans le benchmark MTEB. GATE exploite l'apprentissage de représentations Matryoshka et une approche d'entraînement avec une fonction de perte hybride utilisant des jeux de données de triplets arabes pour l'inférence en langage naturel, éléments essentiels pour améliorer les performances du modèle dans les tâches nécessitant une compréhension sémantique fine. GATE surpasse des modèles plus volumineux, y compris ceux d'OpenAI, avec une amélioration des performances de 20 à 25 % sur les benchmarks STS, capturant efficacement les nuances sémantiques uniques de l'arabe.
English
Semantic textual similarity (STS) is a critical task in natural language
processing (NLP), enabling applications in retrieval, clustering, and
understanding semantic relationships between texts. However, research in this
area for the Arabic language remains limited due to the lack of high-quality
datasets and pre-trained models. This scarcity of resources has restricted the
accurate evaluation and advance of semantic similarity in Arabic text. This
paper introduces General Arabic Text Embedding (GATE) models that achieve
state-of-the-art performance on the Semantic Textual Similarity task within the
MTEB benchmark. GATE leverages Matryoshka Representation Learning and a hybrid
loss training approach with Arabic triplet datasets for Natural Language
Inference, which are essential for enhancing model performance in tasks that
demand fine-grained semantic understanding. GATE outperforms larger models,
including OpenAI, with a 20-25% performance improvement on STS benchmarks,
effectively capturing the unique semantic nuances of Arabic.