ChatPaper.aiChatPaper

Tadabur: Um Grande Conjunto de Dados de Áudio do Alcorão

Tadabur: A Large-Scale Quran Audio Dataset

April 21, 2026
Autores: Faisal Alherran
cs.AI

Resumo

Apesar do crescente interesse na investigação de dados do Alcorão, os conjuntos de dados existentes continuam limitados tanto em escala como em diversidade. Para colmatar esta lacuna, apresentamos Tadabur, um conjunto de dados áudio de larga escala do Alcorão. Tadabur compreende mais de 1400 horas de áudio de recitação de mais de 600 recitadores distintos, proporcionando uma variação substancial nos estilos de recitação, características vocais e condições de gravação. Esta diversidade torna Tadabur um recurso abrangente e representativo para a investigação e análise da fala corânica. Ao expandir significativamente tanto a duração total como a variabilidade dos dados do Alcorão disponíveis, Tadabur visa apoiar investigações futuras e facilitar o desenvolvimento de benchmarks padronizados para a fala corânica.
English
Despite growing interest in Quranic data research, existing Quran datasets remain limited in both scale and diversity. To address this gap, we present Tadabur, a large-scale Quran audio dataset. Tadabur comprises more than 1400+ hours of recitation audio from over 600 distinct reciters, providing substantial variation in recitation styles, vocal characteristics, and recording conditions. This diversity makes Tadabur a comprehensive and representative resource for Quranic speech research and analysis. By significantly expanding both the total duration and variability of available Quran data, Tadabur aims to support future research and facilitate the development of standardized Quranic speech benchmarks.
PDF52April 24, 2026