타다부르: 대규모 코란 오디오 데이터셋
Tadabur: A Large-Scale Quran Audio Dataset
April 21, 2026
저자: Faisal Alherran
cs.AI
초록
꾸란 데이터 연구에 대한 관심이 증가하고 있음에도 불구하고, 기존 꾸란 데이터셋은 규모와 다양성 측면에서 여전히 제한적입니다. 이러한 격차를 해소하기 위해 우리는 대규모 꾸란 음성 데이터셋인 '타다부르(Tadabur)'를 소개합니다. 타다부르는 600명 이상의 다양한 독송자로부터 수집된 1,400시간 이상의 독송 오디오로 구성되어 있으며, 독송 스타일, 발성 특성, 녹음 조건에 있어 상당한 변이성을 제공합니다. 이러한 다양성은 타다부르를 꾸란 음성 연구 및 분석을 위한 포괄적이고 대표성 있는 자원으로 만듭니다. 이용 가능한 꾸란 데이터의 총 지속 시간과 변동성을 크게 확장함으로써, 타다부르는 향후 연구를 지원하고 표준화된 꾸란 음성 벤치마크 개발을 촉진하는 것을 목표로 합니다.
English
Despite growing interest in Quranic data research, existing Quran datasets remain limited in both scale and diversity. To address this gap, we present Tadabur, a large-scale Quran audio dataset. Tadabur comprises more than 1400+ hours of recitation audio from over 600 distinct reciters, providing substantial variation in recitation styles, vocal characteristics, and recording conditions. This diversity makes Tadabur a comprehensive and representative resource for Quranic speech research and analysis. By significantly expanding both the total duration and variability of available Quran data, Tadabur aims to support future research and facilitate the development of standardized Quranic speech benchmarks.