Whisper-RIR-Mega: Ein gepaarter Benchmark für saubere und hallige Sprache zur Bewertung der Robustheit von ASR-Systemen gegenüber Raumakustik
Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics
February 27, 2026
Autoren: Mandip Goswami
cs.AI
Zusammenfassung
Wir stellen Whisper-RIR-Mega vor, einen Benchmark-Datensatz mit gepaarten Aufnahmen von sauberer und halliger Sprache zur Bewertung der Robustheit automatischer Spracherkennung (ASR) gegenüber Raumakustik. Jede Probe kombiniert eine saubere Äußerung aus LibriSpeech mit derselben Äußerung, die mit einer echten Raumimpulsantwort aus dem RIR-Mega-Korpus gefaltet wurde, und verfügt über stratifizierte Aufteilungen nach Nachhallzeit (RT60) und direktem-to-reflektiertem Schallverhältnis (DRR). Wir evaluieren fünf Whisper-Modelle (tiny bis large-v3) anhand von 1600 Testproben und berichten die Wortfehlerrate (WER) und Zeichenfehlerrate (CER) unter sauberen und halligen Bedingungen. Hall verschlechtert durchgängig die Leistung über alle Modellgrößen hinweg; der Hall-bedingte Leistungsabfall in der WER reicht von 0,12 bis 1,07 Prozentpunkten, abhängig vom Modell. Wir veröffentlichen den Datensatz, den Auswertungscode und die Baseline-Ergebnisse, um reproduzierbare Forschung zu robuster ASR zu unterstützen.
English
We introduce Whisper-RIR-Mega, a benchmark dataset of paired clean and reverberant speech for evaluating automatic speech recognition (ASR) robustness to room acoustics. Each sample pairs a clean LibriSpeech utterance with the same utterance convolved with a real room impulse response from the RIR-Mega corpus, with stratified splits by reverberation time (RT60) and direct-to-reverberant ratio (DRR). We evaluate five Whisper models (tiny through large-v3) on 1600 test samples and report word error rate (WER) and character error rate (CER) under clean and reverberant conditions. Reverberation consistently degrades performance across all model sizes; the reverb penalty in WER ranges from 0.12 to 1.07 percentage points depending on the model. We release the dataset, evaluation code, and baseline results to support reproducible research on robust ASR.