ChatPaper.aiChatPaper

GATE : Encodage de texte arabe général pour une similarité sémantique textuelle améliorée avec apprentissage de représentations Matryoshka et entraînement par fonction de perte hybride

GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training

May 30, 2025
Auteurs: Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI

Résumé

La similarité sémantique textuelle (STS) est une tâche cruciale en traitement automatique du langage naturel (TALN), permettant des applications dans la recherche d'information, le clustering et la compréhension des relations sémantiques entre textes. Cependant, la recherche dans ce domaine pour la langue arabe reste limitée en raison du manque de jeux de données de haute qualité et de modèles pré-entraînés. Cette pénurie de ressources a restreint l'évaluation précise et l'avancement de la similarité sémantique dans les textes arabes. Cet article présente les modèles General Arabic Text Embedding (GATE), qui atteignent des performances de pointe sur la tâche de similarité sémantique textuelle dans le benchmark MTEB. GATE exploite l'apprentissage de représentations Matryoshka et une approche d'entraînement avec une fonction de perte hybride utilisant des jeux de données de triplets arabes pour l'inférence en langage naturel, éléments essentiels pour améliorer les performances du modèle dans les tâches nécessitant une compréhension sémantique fine. GATE surpasse des modèles plus volumineux, y compris ceux d'OpenAI, avec une amélioration des performances de 20 à 25 % sur les benchmarks STS, capturant efficacement les nuances sémantiques uniques de l'arabe.
English
Semantic textual similarity (STS) is a critical task in natural language processing (NLP), enabling applications in retrieval, clustering, and understanding semantic relationships between texts. However, research in this area for the Arabic language remains limited due to the lack of high-quality datasets and pre-trained models. This scarcity of resources has restricted the accurate evaluation and advance of semantic similarity in Arabic text. This paper introduces General Arabic Text Embedding (GATE) models that achieve state-of-the-art performance on the Semantic Textual Similarity task within the MTEB benchmark. GATE leverages Matryoshka Representation Learning and a hybrid loss training approach with Arabic triplet datasets for Natural Language Inference, which are essential for enhancing model performance in tasks that demand fine-grained semantic understanding. GATE outperforms larger models, including OpenAI, with a 20-25% performance improvement on STS benchmarks, effectively capturing the unique semantic nuances of Arabic.
PDF32June 2, 2025