タダブル:大規模なクルアーン音声データセット
Tadabur: A Large-Scale Quran Audio Dataset
April 21, 2026
著者: Faisal Alherran
cs.AI
要旨
クルアーンデータ研究への関心が高まっているにもかかわらず、既存のクルアーンデータセットは規模と多様性の両面で限界がある。この課題を解決するため、大規模なクルアーン音声データセット「タダッブル」を提案する。タダッブルは600名以上の異なる誦読者による1400時間以上の朗読音声を収録し、誦読スタイル、声質、録音条件において大幅な多様性を提供する。この多様性により、タダッブルはクルアーン音声研究と分析のための包括的かつ代表的なリソースとなっている。利用可能なクルアーンデータの総時間と変動性を大幅に拡大することで、タダッブルは将来の研究を支援し、標準化されたクルアーン音声ベンチマークの開発を促進することを目指す。
English
Despite growing interest in Quranic data research, existing Quran datasets remain limited in both scale and diversity. To address this gap, we present Tadabur, a large-scale Quran audio dataset. Tadabur comprises more than 1400+ hours of recitation audio from over 600 distinct reciters, providing substantial variation in recitation styles, vocal characteristics, and recording conditions. This diversity makes Tadabur a comprehensive and representative resource for Quranic speech research and analysis. By significantly expanding both the total duration and variability of available Quran data, Tadabur aims to support future research and facilitate the development of standardized Quranic speech benchmarks.