Tadabur: Un Conjunto de Datos de Audio del Corán a Gran Escala

Resumen

A pesar del creciente interés en la investigación de datos coránicos, los conjuntos de datos existentes sobre el Corán siguen siendo limitados tanto en escala como en diversidad. Para abordar esta brecha, presentamos Tadabur, un conjunto de datos de audio coránico a gran escala. Tadabur comprende más de 1400 horas de audio de recitación de más de 600 recitadores distintos, lo que proporciona una variación sustancial en estilos de recitación, características vocales y condiciones de grabación. Esta diversidad convierte a Tadabur en un recurso integral y representativo para la investigación y el análisis del habla coránica. Al expandir significativamente tanto la duración total como la variabilidad de los datos coránicos disponibles, Tadabur tiene como objetivo apoyar la investigación futura y facilitar el desarrollo de puntos de referencia estandarizados para el habla coránica.

English

Despite growing interest in Quranic data research, existing Quran datasets remain limited in both scale and diversity. To address this gap, we present Tadabur, a large-scale Quran audio dataset. Tadabur comprises more than 1400+ hours of recitation audio from over 600 distinct reciters, providing substantial variation in recitation styles, vocal characteristics, and recording conditions. This diversity makes Tadabur a comprehensive and representative resource for Quranic speech research and analysis. By significantly expanding both the total duration and variability of available Quran data, Tadabur aims to support future research and facilitate the development of standardized Quranic speech benchmarks.

Tadabur: Un Conjunto de Datos de Audio del Corán a Gran Escala

Tadabur: A Large-Scale Quran Audio Dataset

Resumen

Support