Whisper-RIR-Mega: Een Gekoppelde Benchmark voor Schone en Galmende Spraak voor ASR-Robuustheid tegen Ruimakoestiek

Samenvatting

Wij introduceren Whisper-RIR-Mega, een benchmarkdataset van gepaarde schone en nagalmende spraak voor het evalueren van de robuustheid van automatische spraakherkenning (ASR) tegen ruimtelijke akoestiek. Elk sample koppelt een schone LibriSpeech-uitspraak aan dezelfde uitspraak die geconvolueerd is met een echte impulsrespons van een ruimte uit de RIR-Mega-corpus, met gestratificeerde splitsingen op basis van nagalmtijd (RT60) en direct-reverberantieverhouding (DRR). Wij evalueren vijf Whisper-modellen (van tiny tot large-v3) op 1600 testsamples en rapporteren de woordfoutenfrequentie (WER) en tekenfoutenfrequentie (CER) onder schone en nagalmende condities. Nagalming leidt consequent tot prestatievermindering bij alle modelgroottes; de WER-straf voor nagalming varieert van 0,12 tot 1,07 procentpunt, afhankelijk van het model. Wij publiceren de dataset, evaluatiecode en basislijresultaten om reproduceerbaar onderzoek naar robuuste ASR te ondersteunen.

English

We introduce Whisper-RIR-Mega, a benchmark dataset of paired clean and reverberant speech for evaluating automatic speech recognition (ASR) robustness to room acoustics. Each sample pairs a clean LibriSpeech utterance with the same utterance convolved with a real room impulse response from the RIR-Mega corpus, with stratified splits by reverberation time (RT60) and direct-to-reverberant ratio (DRR). We evaluate five Whisper models (tiny through large-v3) on 1600 test samples and report word error rate (WER) and character error rate (CER) under clean and reverberant conditions. Reverberation consistently degrades performance across all model sizes; the reverb penalty in WER ranges from 0.12 to 1.07 percentage points depending on the model. We release the dataset, evaluation code, and baseline results to support reproducible research on robust ASR.

Whisper-RIR-Mega: Een Gekoppelde Benchmark voor Schone en Galmende Spraak voor ASR-Robuustheid tegen Ruimakoestiek

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Samenvatting

Support