RIR-Mega-Speech: Реверберирующий речевой корпус с исчерпывающими акустическими метаданными и воспроизводимой оценкой
RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation
January 25, 2026
Авторы: Mandip Goswami
cs.AI
Аннотация
Несмотря на десятилетия исследований реверберирующей речи, сравнение методов остается затруднительным, поскольку большинство корпусов не имеют акустических аннотаций для каждого файла или предоставляют ограниченную документацию для воспроизведения. Мы представляем RIR-Mega-Speech — корпус объемом приблизительно 117,5 часов, созданный путем свертки высказываний из LibriSpeech с примерно 5000 смоделированных импульсных характеристик помещений из коллекции RIR-Mega. Каждый файл включает значения RT60, соотношения прямого и реверберирующего сигнала (DRR) и индекса разборчивости (C₅₀), вычисленные из исходной импульсной характеристики с использованием четко определенных, воспроизводимых процедур. Мы также предоставляем скрипты для повторного создания набора данных и воспроизведения всех оценочных результатов.
Используя модель Whisper small на 1500 парных высказываниях, мы измерили WER в 5,20% (95% ДИ: 4,69–5,78) для чистой речи и 7,70% (7,04–8,35) для реверберирующих версий, что соответствует парному увеличению на 2,50 процентных пункта (2,06–2,98). Это представляет собой относительное ухудшение на 48%. WER монотонно возрастает с увеличением RT60 и уменьшается с ростом DRR, что согласуется с предыдущими перцептивными исследованиями. Хотя основной вывод о том, что реверберация ухудшает распознавание, хорошо установлен, мы стремимся предоставить сообществу стандартизированный ресурс, в котором акустические условия прозрачны, а результаты могут быть проверены независимо. Репозиторий включает инструкции по повторному сборке одной командой для сред Windows и Linux.
English
Despite decades of research on reverberant speech, comparing methods remains difficult because most corpora lack per-file acoustic annotations or provide limited documentation for reproduction. We present RIR-Mega-Speech, a corpus of approximately 117.5 hours created by convolving LibriSpeech utterances with roughly 5,000 simulated room impulse responses from the RIR-Mega collection. Every file includes RT60, direct-to-reverberant ratio (DRR), and clarity index (C_{50}) computed from the source RIR using clearly defined, reproducible procedures. We also provide scripts to rebuild the dataset and reproduce all evaluation results.
Using Whisper small on 1,500 paired utterances, we measure 5.20% WER (95% CI: 4.69--5.78) on clean speech and 7.70% (7.04--8.35) on reverberant versions, corresponding to a paired increase of 2.50 percentage points (2.06--2.98). This represents a 48% relative degradation. WER increases monotonically with RT60 and decreases with DRR, consistent with prior perceptual studies. While the core finding that reverberation harms recognition is well established, we aim to provide the community with a standardized resource where acoustic conditions are transparent and results can be verified independently. The repository includes one-command rebuild instructions for both Windows and Linux environments.