Whisper-RIR-Mega: Un Benchmark di Voce Pulita-Riverberata Accoppiata per la Robustezza del Riconoscimento Vocale all'Acustica Ambientale
Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics
February 27, 2026
Autori: Mandip Goswami
cs.AI
Abstract
Introduciamo Whisper-RIR-Mega, un dataset di benchmark costituito da coppie di parlato pulito e riverberato per valutare la robustezza del riconoscimento automatico del parlato (ASR) all'acustica ambientale. Ogni campione accoppia un enunciato pulito di LibriSpeech con lo stesso enunciato convoluto con una risposta impulsiva ambientale reale del corpus RIR-Mega, con suddivisioni stratificate per tempo di riverberazione (RT60) e rapporto tra componente diretta e riverberata (DRR). Valutiamo cinque modelli Whisper (da tiny a large-v3) su 1600 campioni di test e riportiamo il tasso di errore sulle parole (WER) e il tasso di errore sui caratteri (CER) in condizioni pulite e riverberate. La riverberazione degrada costantemente le prestazioni in tutte le dimensioni del modello; la penalità in WER dovuta alla riverberazione varia da 0,12 a 1,07 punti percentuali a seconda del modello. Rilasciamo il dataset, il codice di valutazione e i risultati di base per supportare la ricerca riproducibile sull'ASR robusto.
English
We introduce Whisper-RIR-Mega, a benchmark dataset of paired clean and reverberant speech for evaluating automatic speech recognition (ASR) robustness to room acoustics. Each sample pairs a clean LibriSpeech utterance with the same utterance convolved with a real room impulse response from the RIR-Mega corpus, with stratified splits by reverberation time (RT60) and direct-to-reverberant ratio (DRR). We evaluate five Whisper models (tiny through large-v3) on 1600 test samples and report word error rate (WER) and character error rate (CER) under clean and reverberant conditions. Reverberation consistently degrades performance across all model sizes; the reverb penalty in WER ranges from 0.12 to 1.07 percentage points depending on the model. We release the dataset, evaluation code, and baseline results to support reproducible research on robust ASR.