ChatPaper.aiChatPaper

Avanzando en los Sistemas de Diccionario Inverso del Árabe: Un Enfoque Basado en Transformers con Directrices para la Construcción de Conjuntos de Datos

Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines

April 30, 2025
Autores: Serry Sibaee, Samar Ahmed, Abdullah Al Harbi, Omer Nacar, Adel Ammar, Yasser Habashi, Wadii Boulila
cs.AI

Resumen

Este estudio aborda la brecha crítica en el procesamiento del lenguaje natural en árabe mediante el desarrollo de un sistema efectivo de Diccionario Inverso Árabe (RD, por sus siglas en inglés) que permite a los usuarios encontrar palabras basadas en sus descripciones o significados. Presentamos un enfoque novedoso basado en transformadores con una arquitectura de red neuronal semi-codificadora que incluye capas de disminución geométrica, logrando resultados de vanguardia en tareas de RD en árabe. Nuestra metodología incorpora un proceso integral de construcción de conjuntos de datos y establece estándares formales de calidad para las definiciones lexicográficas en árabe. Los experimentos con varios modelos preentrenados demuestran que los modelos específicos para árabe superan significativamente a los embeddings multilingües generales, con ARBERTv2 alcanzando la mejor puntuación de clasificación (0.0644). Además, proporcionamos una abstracción formal de la tarea del diccionario inverso que mejora la comprensión teórica y desarrollamos una biblioteca modular y extensible en Python (RDTL) con pipelines de entrenamiento configurables. Nuestro análisis de la calidad del conjunto de datos revela insights importantes para mejorar la construcción de definiciones en árabe, lo que lleva a ocho estándares específicos para la creación de recursos de diccionario inverso de alta calidad. Este trabajo contribuye significativamente a la lingüística computacional en árabe y proporciona herramientas valiosas para el aprendizaje del idioma, la redacción académica y la comunicación profesional en árabe.
English
This study addresses the critical gap in Arabic natural language processing by developing an effective Arabic Reverse Dictionary (RD) system that enables users to find words based on their descriptions or meanings. We present a novel transformer-based approach with a semi-encoder neural network architecture featuring geometrically decreasing layers that achieves state-of-the-art results for Arabic RD tasks. Our methodology incorporates a comprehensive dataset construction process and establishes formal quality standards for Arabic lexicographic definitions. Experiments with various pre-trained models demonstrate that Arabic-specific models significantly outperform general multilingual embeddings, with ARBERTv2 achieving the best ranking score (0.0644). Additionally, we provide a formal abstraction of the reverse dictionary task that enhances theoretical understanding and develop a modular, extensible Python library (RDTL) with configurable training pipelines. Our analysis of dataset quality reveals important insights for improving Arabic definition construction, leading to eight specific standards for building high-quality reverse dictionary resources. This work contributes significantly to Arabic computational linguistics and provides valuable tools for language learning, academic writing, and professional communication in Arabic.
PDF82May 14, 2025