ChatPaper.aiChatPaper

Mejora de la comprensión de la similitud semántica en el procesamiento del lenguaje natural en árabe mediante el aprendizaje de incrustaciones anidadas.

Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

July 30, 2024
Autores: Omer Nacar, Anis Koubaa
cs.AI

Resumen

Este trabajo presenta un marco novedoso para entrenar modelos de anidación de incrustación en árabe a través del Aprendizaje de Incrustación Matryoshka, aprovechando modelos multilingües, específicos del árabe y basados en inglés, para resaltar el poder de los modelos de anidación de incrustación en diversas tareas de procesamiento del lenguaje natural en árabe. Nuestra contribución innovadora incluye la traducción de varios conjuntos de datos de similitud de oraciones al árabe, permitiendo un marco de evaluación integral para comparar estos modelos en diferentes dimensiones. Entrenamos varios modelos de anidación de incrustación en el conjunto de datos de tripletes de Inferencia de Lenguaje Natural en árabe y evaluamos su rendimiento utilizando múltiples métricas de evaluación, incluyendo correlaciones de Pearson y Spearman para similitud coseno, distancia Manhattan, distancia euclidiana y similitud de producto punto. Los resultados demuestran el rendimiento superior de los modelos de incrustación Matryoshka, especialmente en la captura de matices semánticos únicos del idioma árabe. Los resultados mostraron que los modelos de incrustación Matryoshka en árabe tienen un rendimiento superior en la captura de matices semánticos únicos del idioma árabe, superando significativamente a los modelos tradicionales hasta en un 20-25\% en diversas métricas de similitud. Estos resultados subrayan la efectividad del entrenamiento específico del idioma y resaltan el potencial de los modelos Matryoshka en mejorar las tareas de similitud textual semántica para el procesamiento del lenguaje natural en árabe.
English
This work presents a novel framework for training Arabic nested embedding models through Matryoshka Embedding Learning, leveraging multilingual, Arabic-specific, and English-based models, to highlight the power of nested embeddings models in various Arabic NLP downstream tasks. Our innovative contribution includes the translation of various sentence similarity datasets into Arabic, enabling a comprehensive evaluation framework to compare these models across different dimensions. We trained several nested embedding models on the Arabic Natural Language Inference triplet dataset and assessed their performance using multiple evaluation metrics, including Pearson and Spearman correlations for cosine similarity, Manhattan distance, Euclidean distance, and dot product similarity. The results demonstrate the superior performance of the Matryoshka embedding models, particularly in capturing semantic nuances unique to the Arabic language. Results demonstrated that Arabic Matryoshka embedding models have superior performance in capturing semantic nuances unique to the Arabic language, significantly outperforming traditional models by up to 20-25\% across various similarity metrics. These results underscore the effectiveness of language-specific training and highlight the potential of Matryoshka models in enhancing semantic textual similarity tasks for Arabic NLP.
PDF62November 28, 2024