Tadabur: un ampio dataset audio del Corano
Tadabur: A Large-Scale Quran Audio Dataset
April 21, 2026
Autori: Faisal Alherran
cs.AI
Abstract
Nonostante il crescente interesse per la ricerca sui dati coranici, i dataset esistenti del Corano rimangono limitati sia in scala che in diversità. Per colmare questa lacuna, presentiamo Tadabur, un ampio dataset audio del Corano. Tadabur comprende oltre 1400+ ore di audio di recitazione proveniente da più di 600 recitatori distinti, offrendo una sostanziale variazione negli stili di recitazione, nelle caratteristiche vocali e nelle condizioni di registrazione. Questa diversità rende Tadabur una risorsa completa e rappresentativa per la ricerca e l'analisi del parlato coranico. Espandendo significativamente sia la durata totale che la variabilità dei dati coranici disponibili, Tadabur mira a supportare la ricerca futura e a facilitare lo sviluppo di benchmark standardizzati per il parlato coranico.
English
Despite growing interest in Quranic data research, existing Quran datasets remain limited in both scale and diversity. To address this gap, we present Tadabur, a large-scale Quran audio dataset. Tadabur comprises more than 1400+ hours of recitation audio from over 600 distinct reciters, providing substantial variation in recitation styles, vocal characteristics, and recording conditions. This diversity makes Tadabur a comprehensive and representative resource for Quranic speech research and analysis. By significantly expanding both the total duration and variability of available Quran data, Tadabur aims to support future research and facilitate the development of standardized Quranic speech benchmarks.