Progrès des systèmes de dictionnaires inversés arabes : une approche basée sur les transformateurs avec des directives pour la construction de jeux de données
Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines
April 30, 2025
papers.authors: Serry Sibaee, Samar Ahmed, Abdullah Al Harbi, Omer Nacar, Adel Ammar, Yasser Habashi, Wadii Boulila
cs.AI
papers.abstract
Cette étude aborde une lacune critique dans le traitement automatique de la langue arabe en développant un système efficace de dictionnaire inversé (RD) en arabe, permettant aux utilisateurs de trouver des mots à partir de leurs descriptions ou significations. Nous présentons une approche novatrice basée sur les transformateurs, avec une architecture de réseau neuronal semi-encodeur comportant des couches à décroissance géométrique, qui atteint des résultats de pointe pour les tâches de RD en arabe. Notre méthodologie intègre un processus complet de construction de jeux de données et établit des normes de qualité formelles pour les définitions lexicographiques arabes. Les expériences menées avec divers modèles pré-entraînés démontrent que les modèles spécifiques à l'arabe surpassent significativement les embeddings multilingues généraux, avec ARBERTv2 obtenant le meilleur score de classement (0,0644). De plus, nous proposons une abstraction formelle de la tâche de dictionnaire inversé qui améliore la compréhension théorique et développons une bibliothèque Python modulaire et extensible (RDTL) avec des pipelines d'entraînement configurables. Notre analyse de la qualité des jeux de données révèle des insights importants pour améliorer la construction des définitions arabes, aboutissant à huit normes spécifiques pour la création de ressources de dictionnaire inversé de haute qualité. Ce travail contribue de manière significative à la linguistique computationnelle arabe et fournit des outils précieux pour l'apprentissage des langues, la rédaction académique et la communication professionnelle en arabe.
English
This study addresses the critical gap in Arabic natural language processing
by developing an effective Arabic Reverse Dictionary (RD) system that enables
users to find words based on their descriptions or meanings. We present a novel
transformer-based approach with a semi-encoder neural network architecture
featuring geometrically decreasing layers that achieves state-of-the-art
results for Arabic RD tasks. Our methodology incorporates a comprehensive
dataset construction process and establishes formal quality standards for
Arabic lexicographic definitions. Experiments with various pre-trained models
demonstrate that Arabic-specific models significantly outperform general
multilingual embeddings, with ARBERTv2 achieving the best ranking score
(0.0644). Additionally, we provide a formal abstraction of the reverse
dictionary task that enhances theoretical understanding and develop a modular,
extensible Python library (RDTL) with configurable training pipelines. Our
analysis of dataset quality reveals important insights for improving Arabic
definition construction, leading to eight specific standards for building
high-quality reverse dictionary resources. This work contributes significantly
to Arabic computational linguistics and provides valuable tools for language
learning, academic writing, and professional communication in Arabic.