ChatPaper.aiChatPaper

GATE: Allgemeine arabische Texteinbettung für verbesserte semantische Textähnlichkeit mit Matrjoschka-Repräsentationslernen und Hybridverlusttraining

GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training

May 30, 2025
Autoren: Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI

Zusammenfassung

Semantische Textähnlichkeit (Semantic Textual Similarity, STS) ist eine entscheidende Aufgabe in der natürlichen Sprachverarbeitung (Natural Language Processing, NLP), die Anwendungen in den Bereichen Retrieval, Clustering und dem Verständnis semantischer Beziehungen zwischen Texten ermöglicht. Die Forschung in diesem Bereich für die arabische Sprache bleibt jedoch aufgrund des Mangels an hochwertigen Datensätzen und vortrainierten Modellen begrenzt. Diese Ressourcenknappheit hat die genaue Bewertung und Weiterentwicklung der semantischen Ähnlichkeit in arabischen Texten eingeschränkt. Dieses Papier stellt General Arabic Text Embedding (GATE)-Modelle vor, die Spitzenleistungen bei der Aufgabe der semantischen Textähnlichkeit innerhalb des MTEB-Benchmarks erzielen. GATE nutzt Matryoshka Representation Learning und einen hybriden Verlusttrainingsansatz mit arabischen Triplett-Datensätzen für Natural Language Inference, die entscheidend sind, um die Modellleistung bei Aufgaben zu verbessern, die ein feinkörniges semantisches Verständnis erfordern. GATE übertrifft größere Modelle, einschließlich OpenAI, mit einer Leistungssteigerung von 20-25 % auf STS-Benchmarks und erfasst effektiv die einzigartigen semantischen Nuancen des Arabischen.
English
Semantic textual similarity (STS) is a critical task in natural language processing (NLP), enabling applications in retrieval, clustering, and understanding semantic relationships between texts. However, research in this area for the Arabic language remains limited due to the lack of high-quality datasets and pre-trained models. This scarcity of resources has restricted the accurate evaluation and advance of semantic similarity in Arabic text. This paper introduces General Arabic Text Embedding (GATE) models that achieve state-of-the-art performance on the Semantic Textual Similarity task within the MTEB benchmark. GATE leverages Matryoshka Representation Learning and a hybrid loss training approach with Arabic triplet datasets for Natural Language Inference, which are essential for enhancing model performance in tasks that demand fine-grained semantic understanding. GATE outperforms larger models, including OpenAI, with a 20-25% performance improvement on STS benchmarks, effectively capturing the unique semantic nuances of Arabic.
PDF32June 2, 2025