RIR-Mega-Speech: Een nagalmspraakcorpus met uitgebreide akoestische metadata en reproduceerbare evaluatie

Samenvatting

Ondanks tientallen jaren onderzoek naar nagalmspraak blijft het vergelijken van methoden moeilijk, omdat de meeste corpora geen akoestische annotaties per bestand bevatten of beperkte documentatie voor reproductie bieden. Wij presenteren RIR-Mega-Speech, een corpus van ongeveer 117,5 uur, gecreëerd door LibriSpeech-uitingen te convolueren met ongeveer 5.000 gesimuleerde kamerimpulsresponses uit de RIR-Mega-collectie. Elk bestand bevat RT60, de direct-reverberantieverhouding (DRR) en de helderheidsindex (C₅₀), berekend uit de bron-RIR volgens duidelijk gedefinieerde, reproduceerbare procedures. Wij bieden ook scripts om de dataset opnieuw op te bouwen en alle evaluatieresultaten te reproduceren. Met behulp van Whisper small op 1.500 gepaarde uitingen meten we een WER van 5,20% (95% BI: 4,69–5,78) op schone spraak en 7,70% (7,04–8,35) op gereflecteerde versies, wat overeenkomt met een gepaarde toename van 2,50 procentpunten (2,06–2,98). Dit vertegenwoordigt een relatieve verslechtering van 48%. De WER neemt monotoon toe met RT60 en af met DRR, in overeenstemming met eerder perceptueel onderzoek. Hoewel de kernbevinding dat reverberatie de herkenning schaadt goed is vastgesteld, willen wij de gemeenschap een gestandaardiseerde bron bieden waarbij de akoestische condities transparant zijn en resultaten onafhankelijk geverifieerd kunnen worden. De repository omvat herbouwinstructies met één commando voor zowel Windows- als Linux-omgevingen.

English

Despite decades of research on reverberant speech, comparing methods remains difficult because most corpora lack per-file acoustic annotations or provide limited documentation for reproduction. We present RIR-Mega-Speech, a corpus of approximately 117.5 hours created by convolving LibriSpeech utterances with roughly 5,000 simulated room impulse responses from the RIR-Mega collection. Every file includes RT60, direct-to-reverberant ratio (DRR), and clarity index (C_{50}) computed from the source RIR using clearly defined, reproducible procedures. We also provide scripts to rebuild the dataset and reproduce all evaluation results. Using Whisper small on 1,500 paired utterances, we measure 5.20% WER (95% CI: 4.69--5.78) on clean speech and 7.70% (7.04--8.35) on reverberant versions, corresponding to a paired increase of 2.50 percentage points (2.06--2.98). This represents a 48% relative degradation. WER increases monotonically with RT60 and decreases with DRR, consistent with prior perceptual studies. While the core finding that reverberation harms recognition is well established, we aim to provide the community with a standardized resource where acoustic conditions are transparent and results can be verified independently. The repository includes one-command rebuild instructions for both Windows and Linux environments.

RIR-Mega-Speech: Een nagalmspraakcorpus met uitgebreide akoestische metadata en reproduceerbare evaluatie

RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation

Samenvatting

Support