Aprimorando a Compreensão da Similaridade Semântica em PNL Árabe com Aprendizado de Incorporação Aninhada
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning
July 30, 2024
Autores: Omer Nacar, Anis Koubaa
cs.AI
Resumo
Este trabalho apresenta um novo framework para treinar modelos de incorporação aninhados em árabe por meio do Aprendizado de Incorporação Matryoshka, aproveitando modelos multilíngues, específicos para o árabe e baseados em inglês, para destacar o poder dos modelos de incorporação aninhados em várias tarefas downstream de PNL em árabe. Nossa contribuição inovadora inclui a tradução de vários conjuntos de dados de similaridade de frases para o árabe, possibilitando um framework abrangente de avaliação para comparar esses modelos em diferentes dimensões. Treinamos vários modelos de incorporação aninhados no conjunto de dados de triplas de Inferência de Linguagem Natural em árabe e avaliamos seu desempenho usando múltiplas métricas de avaliação, incluindo correlações de Pearson e Spearman para similaridade de cosseno, distância de Manhattan, distância euclidiana e similaridade de produto ponto. Os resultados demonstram o desempenho superior dos modelos de incorporação Matryoshka, especialmente na captura de nuances semânticas únicas da língua árabe. Os resultados mostraram que os modelos de incorporação Matryoshka em árabe têm um desempenho superior na captura de nuances semânticas únicas da língua árabe, superando significativamente os modelos tradicionais em até 20-25\% em várias métricas de similaridade. Esses resultados destacam a eficácia do treinamento específico para a língua e ressaltam o potencial dos modelos Matryoshka em aprimorar tarefas de similaridade textual semântica para PNL em árabe.
English
This work presents a novel framework for training Arabic nested embedding
models through Matryoshka Embedding Learning, leveraging multilingual,
Arabic-specific, and English-based models, to highlight the power of nested
embeddings models in various Arabic NLP downstream tasks. Our innovative
contribution includes the translation of various sentence similarity datasets
into Arabic, enabling a comprehensive evaluation framework to compare these
models across different dimensions. We trained several nested embedding models
on the Arabic Natural Language Inference triplet dataset and assessed their
performance using multiple evaluation metrics, including Pearson and Spearman
correlations for cosine similarity, Manhattan distance, Euclidean distance, and
dot product similarity. The results demonstrate the superior performance of the
Matryoshka embedding models, particularly in capturing semantic nuances unique
to the Arabic language. Results demonstrated that Arabic Matryoshka embedding
models have superior performance in capturing semantic nuances unique to the
Arabic language, significantly outperforming traditional models by up to
20-25\% across various similarity metrics. These results underscore the
effectiveness of language-specific training and highlight the potential of
Matryoshka models in enhancing semantic textual similarity tasks for Arabic
NLP.Summary
AI-Generated Summary