Migliorare la Comprensione della Somiglianza Semantica nell'NLP Arabo con l'Apprendimento di Embedding Annidati
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning
July 30, 2024
Autori: Omer Nacar, Anis Koubaa
cs.AI
Abstract
Questo lavoro presenta un nuovo framework per l'addestramento di modelli di embedding nidificati per l'arabo attraverso il Matryoshka Embedding Learning, sfruttando modelli multilingue, specifici per l'arabo e basati sull'inglese, per evidenziare la potenza dei modelli di embedding nidificati in varie attività downstream di NLP arabo. Il nostro contributo innovativo include la traduzione di vari dataset di similarità frasale in arabo, consentendo un framework di valutazione completo per confrontare questi modelli su diverse dimensioni. Abbiamo addestrato diversi modelli di embedding nidificati sul dataset di triplette di inferenza del linguaggio naturale arabo e abbiamo valutato le loro prestazioni utilizzando molteplici metriche di valutazione, tra cui le correlazioni di Pearson e Spearman per la similarità del coseno, la distanza di Manhattan, la distanza euclidea e la similarità del prodotto scalare. I risultati dimostrano la prestazione superiore dei modelli di embedding Matryoshka, in particolare nella cattura delle sfumature semantiche uniche della lingua araba. I risultati hanno dimostrato che i modelli di embedding Matryoshka per l'arabo hanno prestazioni superiori nella cattura delle sfumature semantiche uniche della lingua araba, superando significativamente i modelli tradizionali fino al 20-25% su varie metriche di similarità. Questi risultati sottolineano l'efficacia dell'addestramento specifico per lingua e evidenziano il potenziale dei modelli Matryoshka nel migliorare le attività di similarità semantica testuale per l'NLP arabo.
English
This work presents a novel framework for training Arabic nested embedding
models through Matryoshka Embedding Learning, leveraging multilingual,
Arabic-specific, and English-based models, to highlight the power of nested
embeddings models in various Arabic NLP downstream tasks. Our innovative
contribution includes the translation of various sentence similarity datasets
into Arabic, enabling a comprehensive evaluation framework to compare these
models across different dimensions. We trained several nested embedding models
on the Arabic Natural Language Inference triplet dataset and assessed their
performance using multiple evaluation metrics, including Pearson and Spearman
correlations for cosine similarity, Manhattan distance, Euclidean distance, and
dot product similarity. The results demonstrate the superior performance of the
Matryoshka embedding models, particularly in capturing semantic nuances unique
to the Arabic language. Results demonstrated that Arabic Matryoshka embedding
models have superior performance in capturing semantic nuances unique to the
Arabic language, significantly outperforming traditional models by up to
20-25\% across various similarity metrics. These results underscore the
effectiveness of language-specific training and highlight the potential of
Matryoshka models in enhancing semantic textual similarity tasks for Arabic
NLP.