アラビア語逆引き辞書システムの進化:Transformerベースのアプローチとデータセット構築ガイドライン
Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines
April 30, 2025
著者: Serry Sibaee, Samar Ahmed, Abdullah Al Harbi, Omer Nacar, Adel Ammar, Yasser Habashi, Wadii Boulila
cs.AI
要旨
本研究は、アラビア語自然言語処理における重要なギャップに取り組むため、ユーザーが説明や意味に基づいて単語を見つけることを可能にする効果的なアラビア語逆引き辞書(RD)システムを開発します。幾何学的に減少する層を特徴とする半エンコーダニューラルネットワークアーキテクチャを備えた新しいトランスフォーマーベースのアプローチを提示し、アラビア語RDタスクにおいて最先端の結果を達成します。私たちの方法論は、包括的なデータセット構築プロセスを組み込み、アラビア語辞書学的定義のための正式な品質基準を確立します。様々な事前学習済みモデルを用いた実験により、アラビア語固有のモデルが一般的な多言語埋め込みを大幅に上回り、ARBERTv2が最高のランキングスコア(0.0644)を達成することが示されました。さらに、逆引き辞書タスクの形式的な抽象化を提供し、理論的理解を深めるとともに、設定可能なトレーニングパイプラインを備えたモジュール式で拡張可能なPythonライブラリ(RDTL)を開発します。データセット品質の分析により、アラビア語定義構築を改善するための重要な洞察が得られ、高品質な逆引き辞書リソースを構築するための8つの具体的な基準が導き出されました。この研究は、アラビア語計算言語学に大きく貢献し、アラビア語の言語学習、学術執筆、専門的なコミュニケーションのための貴重なツールを提供します。
English
This study addresses the critical gap in Arabic natural language processing
by developing an effective Arabic Reverse Dictionary (RD) system that enables
users to find words based on their descriptions or meanings. We present a novel
transformer-based approach with a semi-encoder neural network architecture
featuring geometrically decreasing layers that achieves state-of-the-art
results for Arabic RD tasks. Our methodology incorporates a comprehensive
dataset construction process and establishes formal quality standards for
Arabic lexicographic definitions. Experiments with various pre-trained models
demonstrate that Arabic-specific models significantly outperform general
multilingual embeddings, with ARBERTv2 achieving the best ranking score
(0.0644). Additionally, we provide a formal abstraction of the reverse
dictionary task that enhances theoretical understanding and develop a modular,
extensible Python library (RDTL) with configurable training pipelines. Our
analysis of dataset quality reveals important insights for improving Arabic
definition construction, leading to eight specific standards for building
high-quality reverse dictionary resources. This work contributes significantly
to Arabic computational linguistics and provides valuable tools for language
learning, academic writing, and professional communication in Arabic.