Avanzando en los Sistemas de Diccionario Inverso del Árabe: Un Enfoque Basado en Transformers con Directrices para la Construcción de Conjuntos de Datos
Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines
April 30, 2025
Autores: Serry Sibaee, Samar Ahmed, Abdullah Al Harbi, Omer Nacar, Adel Ammar, Yasser Habashi, Wadii Boulila
cs.AI
Resumen
Este estudio aborda la brecha crítica en el procesamiento del lenguaje natural en árabe mediante el desarrollo de un sistema efectivo de Diccionario Inverso Árabe (RD, por sus siglas en inglés) que permite a los usuarios encontrar palabras basadas en sus descripciones o significados. Presentamos un enfoque novedoso basado en transformadores con una arquitectura de red neuronal semi-codificadora que incluye capas de disminución geométrica, logrando resultados de vanguardia en tareas de RD en árabe. Nuestra metodología incorpora un proceso integral de construcción de conjuntos de datos y establece estándares formales de calidad para las definiciones lexicográficas en árabe. Los experimentos con varios modelos preentrenados demuestran que los modelos específicos para árabe superan significativamente a los embeddings multilingües generales, con ARBERTv2 alcanzando la mejor puntuación de clasificación (0.0644). Además, proporcionamos una abstracción formal de la tarea del diccionario inverso que mejora la comprensión teórica y desarrollamos una biblioteca modular y extensible en Python (RDTL) con pipelines de entrenamiento configurables. Nuestro análisis de la calidad del conjunto de datos revela insights importantes para mejorar la construcción de definiciones en árabe, lo que lleva a ocho estándares específicos para la creación de recursos de diccionario inverso de alta calidad. Este trabajo contribuye significativamente a la lingüística computacional en árabe y proporciona herramientas valiosas para el aprendizaje del idioma, la redacción académica y la comunicación profesional en árabe.
English
This study addresses the critical gap in Arabic natural language processing
by developing an effective Arabic Reverse Dictionary (RD) system that enables
users to find words based on their descriptions or meanings. We present a novel
transformer-based approach with a semi-encoder neural network architecture
featuring geometrically decreasing layers that achieves state-of-the-art
results for Arabic RD tasks. Our methodology incorporates a comprehensive
dataset construction process and establishes formal quality standards for
Arabic lexicographic definitions. Experiments with various pre-trained models
demonstrate that Arabic-specific models significantly outperform general
multilingual embeddings, with ARBERTv2 achieving the best ranking score
(0.0644). Additionally, we provide a formal abstraction of the reverse
dictionary task that enhances theoretical understanding and develop a modular,
extensible Python library (RDTL) with configurable training pipelines. Our
analysis of dataset quality reveals important insights for improving Arabic
definition construction, leading to eight specific standards for building
high-quality reverse dictionary resources. This work contributes significantly
to Arabic computational linguistics and provides valuable tools for language
learning, academic writing, and professional communication in Arabic.