Het verbeteren van semantische gelijkenisbegrip in Arabische NLP met genest inbeddingsleren
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning
July 30, 2024
Auteurs: Omer Nacar, Anis Koubaa
cs.AI
Samenvatting
Dit werk presenteert een nieuw raamwerk voor het trainen van geneste embeddingmodellen voor het Arabisch via Matryoshka Embedding Learning, waarbij gebruik wordt gemaakt van meertalige, Arabisch-specifieke en Engelstalige modellen, om de kracht van geneste embeddingmodellen in verschillende downstream taken voor Arabische NLP te benadrukken. Onze innovatieve bijdrage omvat de vertaling van verschillende datasets voor zinsgelijkwaardigheid naar het Arabisch, wat een uitgebreid evaluatieraamwerk mogelijk maakt om deze modellen op verschillende dimensies te vergelijken. We hebben verschillende geneste embeddingmodellen getraind op de Arabische Natural Language Inference triplet-dataset en hun prestaties beoordeeld met behulp van meerdere evaluatiemetrics, waaronder Pearson- en Spearman-correlaties voor cosinusgelijkwaardigheid, Manhattan-afstand, Euclidische afstand en inproductgelijkwaardigheid. De resultaten tonen de superieure prestaties van de Matryoshka-embeddingmodellen aan, met name in het vastleggen van semantische nuances die uniek zijn voor de Arabische taal. De resultaten toonden aan dat Arabische Matryoshka-embeddingmodellen superieure prestaties leveren in het vastleggen van semantische nuances die uniek zijn voor de Arabische taal, waarbij ze traditionele modellen met tot wel 20-25\% overtreffen op verschillende gelijkwaardigheidsmetrics. Deze resultaten onderstrepen de effectiviteit van taal-specifieke training en benadrukken het potentieel van Matryoshka-modellen in het verbeteren van semantische tekstuele gelijkwaardigheidstaken voor Arabische NLP.
English
This work presents a novel framework for training Arabic nested embedding
models through Matryoshka Embedding Learning, leveraging multilingual,
Arabic-specific, and English-based models, to highlight the power of nested
embeddings models in various Arabic NLP downstream tasks. Our innovative
contribution includes the translation of various sentence similarity datasets
into Arabic, enabling a comprehensive evaluation framework to compare these
models across different dimensions. We trained several nested embedding models
on the Arabic Natural Language Inference triplet dataset and assessed their
performance using multiple evaluation metrics, including Pearson and Spearman
correlations for cosine similarity, Manhattan distance, Euclidean distance, and
dot product similarity. The results demonstrate the superior performance of the
Matryoshka embedding models, particularly in capturing semantic nuances unique
to the Arabic language. Results demonstrated that Arabic Matryoshka embedding
models have superior performance in capturing semantic nuances unique to the
Arabic language, significantly outperforming traditional models by up to
20-25\% across various similarity metrics. These results underscore the
effectiveness of language-specific training and highlight the potential of
Matryoshka models in enhancing semantic textual similarity tasks for Arabic
NLP.