GATE: Algemene Arabische Tekst Inbedding voor Verbeterde Semantische Tekstuele Gelijkwaardigheid met Matryoshka Representatie Leren en Hybride Verlies Training
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training
May 30, 2025
Auteurs: Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI
Samenvatting
Semantische tekstuele gelijkenis (STS) is een cruciale taak binnen natuurlijke taalverwerking (NLP), die toepassingen mogelijk maakt op het gebied van informatiezoektoepassingen, clustering en het begrijpen van semantische relaties tussen teksten. Onderzoek op dit gebied voor de Arabische taal blijft echter beperkt vanwege het gebrek aan hoogwaardige datasets en vooraf getrainde modellen. Deze schaarste aan bronnen heeft een nauwkeurige evaluatie en vooruitgang van semantische gelijkenis in Arabische teksten belemmerd. Dit artikel introduceert General Arabic Text Embedding (GATE) modellen die state-of-the-art prestaties leveren op de taak van Semantische Tekstuele Gelijkenis binnen de MTEB-benchmark. GATE maakt gebruik van Matryoshka Representation Learning en een hybride verlies-trainingsbenadering met Arabische triplet-datasets voor Natural Language Inference, die essentieel zijn voor het verbeteren van modelprestaties bij taken die een fijnmazig semantisch begrip vereisen. GATE overtreft grotere modellen, waaronder OpenAI, met een prestatieverbetering van 20-25% op STS-benchmarks, waarbij het de unieke semantische nuances van het Arabisch effectief vastlegt.
English
Semantic textual similarity (STS) is a critical task in natural language
processing (NLP), enabling applications in retrieval, clustering, and
understanding semantic relationships between texts. However, research in this
area for the Arabic language remains limited due to the lack of high-quality
datasets and pre-trained models. This scarcity of resources has restricted the
accurate evaluation and advance of semantic similarity in Arabic text. This
paper introduces General Arabic Text Embedding (GATE) models that achieve
state-of-the-art performance on the Semantic Textual Similarity task within the
MTEB benchmark. GATE leverages Matryoshka Representation Learning and a hybrid
loss training approach with Arabic triplet datasets for Natural Language
Inference, which are essential for enhancing model performance in tasks that
demand fine-grained semantic understanding. GATE outperforms larger models,
including OpenAI, with a 20-25% performance improvement on STS benchmarks,
effectively capturing the unique semantic nuances of Arabic.