GATE: Algemene Arabische Tekst Inbedding voor Verbeterde Semantische Tekstuele Gelijkwaardigheid met Matryoshka Representatie Leren en Hybride Verlies Training

Samenvatting

Semantische tekstuele gelijkenis (STS) is een cruciale taak binnen natuurlijke taalverwerking (NLP), die toepassingen mogelijk maakt op het gebied van informatiezoektoepassingen, clustering en het begrijpen van semantische relaties tussen teksten. Onderzoek op dit gebied voor de Arabische taal blijft echter beperkt vanwege het gebrek aan hoogwaardige datasets en vooraf getrainde modellen. Deze schaarste aan bronnen heeft een nauwkeurige evaluatie en vooruitgang van semantische gelijkenis in Arabische teksten belemmerd. Dit artikel introduceert General Arabic Text Embedding (GATE) modellen die state-of-the-art prestaties leveren op de taak van Semantische Tekstuele Gelijkenis binnen de MTEB-benchmark. GATE maakt gebruik van Matryoshka Representation Learning en een hybride verlies-trainingsbenadering met Arabische triplet-datasets voor Natural Language Inference, die essentieel zijn voor het verbeteren van modelprestaties bij taken die een fijnmazig semantisch begrip vereisen. GATE overtreft grotere modellen, waaronder OpenAI, met een prestatieverbetering van 20-25% op STS-benchmarks, waarbij het de unieke semantische nuances van het Arabisch effectief vastlegt.

English

Semantic textual similarity (STS) is a critical task in natural language processing (NLP), enabling applications in retrieval, clustering, and understanding semantic relationships between texts. However, research in this area for the Arabic language remains limited due to the lack of high-quality datasets and pre-trained models. This scarcity of resources has restricted the accurate evaluation and advance of semantic similarity in Arabic text. This paper introduces General Arabic Text Embedding (GATE) models that achieve state-of-the-art performance on the Semantic Textual Similarity task within the MTEB benchmark. GATE leverages Matryoshka Representation Learning and a hybrid loss training approach with Arabic triplet datasets for Natural Language Inference, which are essential for enhancing model performance in tasks that demand fine-grained semantic understanding. GATE outperforms larger models, including OpenAI, with a 20-25% performance improvement on STS benchmarks, effectively capturing the unique semantic nuances of Arabic.

GATE: Algemene Arabische Tekst Inbedding voor Verbeterde Semantische Tekstuele Gelijkwaardigheid met Matryoshka Representatie Leren en Hybride Verlies Training

GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training

Samenvatting

Support