RIR-Mega-Speech: Ein reverberantes Sprachkorpus mit umfassender akustischer Metadaten-Dokumentation und reproduzierbarer Evaluierung
RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation
January 25, 2026
papers.authors: Mandip Goswami
cs.AI
papers.abstract
Trotz jahrzehntelanger Forschung zu hallbehafteter Sprache bleibt der Vergleich von Methoden schwierig, da den meisten Korpora akustische Datei-für-Datei-Annotationen fehlen oder sie nur eingeschränkte Dokumentation zur Reproduktion bereitstellen. Wir stellen RIR-Mega-Speech vor, ein Korpus von etwa 117,5 Stunden, das durch Faltung von LibriSpeech-Aufnahmen mit rund 5.000 simulierten Rauminpulsantworten aus der RIR-Mega-Sammlung erstellt wurde. Jede Datei enthält die RT60, das Direkt-Schall-zu-Hall-Verhältnis (DRR) und den Deutlichkeitsindex (C₅₀), die aus der ursprünglichen Rauminpulsantwort mittels klar definierter, reproduzierbarer Verfahren berechnet wurden. Wir stellen auch Skripte bereit, um den Datensatz neu aufzubauen und alle Evaluierungsergebnisse zu reproduzieren.
Anhand von 1.500 gepaarten Äußerungen, die mit Whisper small verarbeitet wurden, messen wir eine WER von 5,20 % (95 %-KI: 4,69–5,78) bei sauberer Sprache und 7,70 % (7,04–8,35) bei den hallbehafteten Versionen, was einem gepaarten Anstieg von 2,50 Prozentpunkten (2,06–2,98) entspricht. Dies stellt eine relative Verschlechterung von 48 % dar. Die WER steigt monoton mit der RT60 und sinkt mit dem DRR, was mit früheren Wahrnehmungsstudien übereinstimmt. Auch wenn die Kernaussage, dass Hall die Erkennung beeinträchtigt, gut belegt ist, wollen wir der Gemeinschaft eine standardisierte Ressource zur Verfügung stellen, in der die akustischen Bedingungen transparent und Ergebnisse unabhängig überprüfbar sind. Das Repository enthält One-Command-Rebuild-Anleitungen für Windows- und Linux-Umgebungen.
English
Despite decades of research on reverberant speech, comparing methods remains difficult because most corpora lack per-file acoustic annotations or provide limited documentation for reproduction. We present RIR-Mega-Speech, a corpus of approximately 117.5 hours created by convolving LibriSpeech utterances with roughly 5,000 simulated room impulse responses from the RIR-Mega collection. Every file includes RT60, direct-to-reverberant ratio (DRR), and clarity index (C_{50}) computed from the source RIR using clearly defined, reproducible procedures. We also provide scripts to rebuild the dataset and reproduce all evaluation results.
Using Whisper small on 1,500 paired utterances, we measure 5.20% WER (95% CI: 4.69--5.78) on clean speech and 7.70% (7.04--8.35) on reverberant versions, corresponding to a paired increase of 2.50 percentage points (2.06--2.98). This represents a 48% relative degradation. WER increases monotonically with RT60 and decreases with DRR, consistent with prior perceptual studies. While the core finding that reverberation harms recognition is well established, we aim to provide the community with a standardized resource where acoustic conditions are transparent and results can be verified independently. The repository includes one-command rebuild instructions for both Windows and Linux environments.