ChatPaper.aiChatPaper

Progrès des systèmes de dictionnaires inversés arabes : une approche basée sur les transformateurs avec des directives pour la construction de jeux de données

Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines

April 30, 2025
papers.authors: Serry Sibaee, Samar Ahmed, Abdullah Al Harbi, Omer Nacar, Adel Ammar, Yasser Habashi, Wadii Boulila
cs.AI

papers.abstract

Cette étude aborde une lacune critique dans le traitement automatique de la langue arabe en développant un système efficace de dictionnaire inversé (RD) en arabe, permettant aux utilisateurs de trouver des mots à partir de leurs descriptions ou significations. Nous présentons une approche novatrice basée sur les transformateurs, avec une architecture de réseau neuronal semi-encodeur comportant des couches à décroissance géométrique, qui atteint des résultats de pointe pour les tâches de RD en arabe. Notre méthodologie intègre un processus complet de construction de jeux de données et établit des normes de qualité formelles pour les définitions lexicographiques arabes. Les expériences menées avec divers modèles pré-entraînés démontrent que les modèles spécifiques à l'arabe surpassent significativement les embeddings multilingues généraux, avec ARBERTv2 obtenant le meilleur score de classement (0,0644). De plus, nous proposons une abstraction formelle de la tâche de dictionnaire inversé qui améliore la compréhension théorique et développons une bibliothèque Python modulaire et extensible (RDTL) avec des pipelines d'entraînement configurables. Notre analyse de la qualité des jeux de données révèle des insights importants pour améliorer la construction des définitions arabes, aboutissant à huit normes spécifiques pour la création de ressources de dictionnaire inversé de haute qualité. Ce travail contribue de manière significative à la linguistique computationnelle arabe et fournit des outils précieux pour l'apprentissage des langues, la rédaction académique et la communication professionnelle en arabe.
English
This study addresses the critical gap in Arabic natural language processing by developing an effective Arabic Reverse Dictionary (RD) system that enables users to find words based on their descriptions or meanings. We present a novel transformer-based approach with a semi-encoder neural network architecture featuring geometrically decreasing layers that achieves state-of-the-art results for Arabic RD tasks. Our methodology incorporates a comprehensive dataset construction process and establishes formal quality standards for Arabic lexicographic definitions. Experiments with various pre-trained models demonstrate that Arabic-specific models significantly outperform general multilingual embeddings, with ARBERTv2 achieving the best ranking score (0.0644). Additionally, we provide a formal abstraction of the reverse dictionary task that enhances theoretical understanding and develop a modular, extensible Python library (RDTL) with configurable training pipelines. Our analysis of dataset quality reveals important insights for improving Arabic definition construction, leading to eight specific standards for building high-quality reverse dictionary resources. This work contributes significantly to Arabic computational linguistics and provides valuable tools for language learning, academic writing, and professional communication in Arabic.
PDF82May 14, 2025