Тадабур: Крупномасштабный аудиодатасет Корана

Аннотация

Несмотря на растущий интерес к исследованиям коранических данных, существующие наборы данных Корана остаются ограниченными как по масштабу, так и по разнообразию. Для устранения этого пробела мы представляем Tadabur — крупномасштабный аудиодатасет Корана. Tadabur включает более 1400 часов аудиозаписей чтения от более чем 600 различных чтецов, что обеспечивает значительное разнообразие стилей чтения, голосовых характеристик и условий записи. Это разнообразие делает Tadabur всеобъемлющим и репрезентативным ресурсом для исследований и анализа коранической речи. Значительно расширяя как общую продолжительность, так и вариативность доступных данных Корана, Tadabur призван поддержать будущие исследования и способствовать разработке стандартизированных эталонов для оценки коранической речи.

English

Despite growing interest in Quranic data research, existing Quran datasets remain limited in both scale and diversity. To address this gap, we present Tadabur, a large-scale Quran audio dataset. Tadabur comprises more than 1400+ hours of recitation audio from over 600 distinct reciters, providing substantial variation in recitation styles, vocal characteristics, and recording conditions. This diversity makes Tadabur a comprehensive and representative resource for Quranic speech research and analysis. By significantly expanding both the total duration and variability of available Quran data, Tadabur aims to support future research and facilitate the development of standardized Quranic speech benchmarks.

Тадабур: Крупномасштабный аудиодатасет Корана

Tadabur: A Large-Scale Quran Audio Dataset

Аннотация

Support