아랍어 역사전 시스템의 발전: 데이터셋 구축 지침과 트랜스포머 기반 접근법
Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines
April 30, 2025
저자: Serry Sibaee, Samar Ahmed, Abdullah Al Harbi, Omer Nacar, Adel Ammar, Yasser Habashi, Wadii Boulila
cs.AI
초록
본 연구는 아랍어 자연어 처리 분야에서 중요한 공백을 해소하기 위해, 사용자가 단어의 설명이나 의미를 기반으로 단어를 찾을 수 있는 효과적인 아랍어 역사전(Reverse Dictionary, RD) 시스템을 개발한다. 우리는 기하급수적으로 감소하는 층을 특징으로 하는 반-인코더 신경망 아키텍처를 기반으로 한 새로운 트랜스포머 기반 접근법을 제시하며, 이를 통해 아랍어 RD 작업에서 최첨단 결과를 달성한다. 우리의 방법론은 포괄적인 데이터셋 구축 과정을 포함하며, 아랍어 사전학적 정의를 위한 공식적인 품질 기준을 수립한다. 다양한 사전 학습 모델을 사용한 실험 결과, 아랍어 특화 모델이 일반적인 다국어 임베딩을 크게 능가하며, ARBERTv2가 최고의 순위 점수(0.0644)를 달성함을 보여준다. 또한, 우리는 역사전 작업에 대한 공식적인 추상화를 제공하여 이론적 이해를 증진시키고, 구성 가능한 학습 파이프라인을 갖춘 모듈식 및 확장 가능한 파이썬 라이브러리(RDTL)를 개발한다. 데이터셋 품질에 대한 분석을 통해 아랍어 정의 구성을 개선하기 위한 중요한 통찰을 제공하며, 이를 바탕으로 고품질 역사전 자원을 구축하기 위한 8가지 구체적인 기준을 제시한다. 이 연구는 아랍어 계산 언어학에 크게 기여하며, 아랍어 학습, 학술 글쓰기, 전문 커뮤니케이션을 위한 가치 있는 도구를 제공한다.
English
This study addresses the critical gap in Arabic natural language processing
by developing an effective Arabic Reverse Dictionary (RD) system that enables
users to find words based on their descriptions or meanings. We present a novel
transformer-based approach with a semi-encoder neural network architecture
featuring geometrically decreasing layers that achieves state-of-the-art
results for Arabic RD tasks. Our methodology incorporates a comprehensive
dataset construction process and establishes formal quality standards for
Arabic lexicographic definitions. Experiments with various pre-trained models
demonstrate that Arabic-specific models significantly outperform general
multilingual embeddings, with ARBERTv2 achieving the best ranking score
(0.0644). Additionally, we provide a formal abstraction of the reverse
dictionary task that enhances theoretical understanding and develop a modular,
extensible Python library (RDTL) with configurable training pipelines. Our
analysis of dataset quality reveals important insights for improving Arabic
definition construction, leading to eight specific standards for building
high-quality reverse dictionary resources. This work contributes significantly
to Arabic computational linguistics and provides valuable tools for language
learning, academic writing, and professional communication in Arabic.