ChatPaper.aiChatPaper

アラビア語逆引き辞書システムの進化:Transformerベースのアプローチとデータセット構築ガイドライン

Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines

April 30, 2025
著者: Serry Sibaee, Samar Ahmed, Abdullah Al Harbi, Omer Nacar, Adel Ammar, Yasser Habashi, Wadii Boulila
cs.AI

要旨

本研究は、アラビア語自然言語処理における重要なギャップに取り組むため、ユーザーが説明や意味に基づいて単語を見つけることを可能にする効果的なアラビア語逆引き辞書(RD)システムを開発します。幾何学的に減少する層を特徴とする半エンコーダニューラルネットワークアーキテクチャを備えた新しいトランスフォーマーベースのアプローチを提示し、アラビア語RDタスクにおいて最先端の結果を達成します。私たちの方法論は、包括的なデータセット構築プロセスを組み込み、アラビア語辞書学的定義のための正式な品質基準を確立します。様々な事前学習済みモデルを用いた実験により、アラビア語固有のモデルが一般的な多言語埋め込みを大幅に上回り、ARBERTv2が最高のランキングスコア(0.0644)を達成することが示されました。さらに、逆引き辞書タスクの形式的な抽象化を提供し、理論的理解を深めるとともに、設定可能なトレーニングパイプラインを備えたモジュール式で拡張可能なPythonライブラリ(RDTL)を開発します。データセット品質の分析により、アラビア語定義構築を改善するための重要な洞察が得られ、高品質な逆引き辞書リソースを構築するための8つの具体的な基準が導き出されました。この研究は、アラビア語計算言語学に大きく貢献し、アラビア語の言語学習、学術執筆、専門的なコミュニケーションのための貴重なツールを提供します。
English
This study addresses the critical gap in Arabic natural language processing by developing an effective Arabic Reverse Dictionary (RD) system that enables users to find words based on their descriptions or meanings. We present a novel transformer-based approach with a semi-encoder neural network architecture featuring geometrically decreasing layers that achieves state-of-the-art results for Arabic RD tasks. Our methodology incorporates a comprehensive dataset construction process and establishes formal quality standards for Arabic lexicographic definitions. Experiments with various pre-trained models demonstrate that Arabic-specific models significantly outperform general multilingual embeddings, with ARBERTv2 achieving the best ranking score (0.0644). Additionally, we provide a formal abstraction of the reverse dictionary task that enhances theoretical understanding and develop a modular, extensible Python library (RDTL) with configurable training pipelines. Our analysis of dataset quality reveals important insights for improving Arabic definition construction, leading to eight specific standards for building high-quality reverse dictionary resources. This work contributes significantly to Arabic computational linguistics and provides valuable tools for language learning, academic writing, and professional communication in Arabic.
PDF82May 14, 2025