Whisper-RIR-Mega: Un Conjunto de Datos de Referencia de Voz Limpia-Reverberante Emparejada para la Robustez del Reconocimiento Automático del Habla frente a Acústica de Salas

Resumen

Presentamos Whisper-RIR-Mega, un conjunto de datos de referencia de habla limpia y reverberante emparejada para evaluar la robustez del reconocimiento automático del habla (ASR) frente a la acústica ambiental. Cada muestra empareja un segmento de habla limpia de LibriSpeech con el mismo segmento convolucionado con una respuesta al impulso de sala real del corpus RIR-Mega, con divisiones estratificadas por tiempo de reverberación (RT60) y relación directo-reverberante (DRR). Evaluamos cinco modelos Whisper (desde tiny hasta large-v3) en 1600 muestras de prueba y reportamos la tasa de error por palabra (WER) y la tasa de error por carácter (CER) en condiciones limpias y reverberantes. La reverberación degrada consistentemente el rendimiento en todos los tamaños de modelo; la penalización por reverberación en WER oscila entre 0.12 y 1.07 puntos porcentuales según el modelo. Publicamos el conjunto de datos, el código de evaluación y los resultados de referencia para apoyar la investigación reproducible en ASR robusto.

English

We introduce Whisper-RIR-Mega, a benchmark dataset of paired clean and reverberant speech for evaluating automatic speech recognition (ASR) robustness to room acoustics. Each sample pairs a clean LibriSpeech utterance with the same utterance convolved with a real room impulse response from the RIR-Mega corpus, with stratified splits by reverberation time (RT60) and direct-to-reverberant ratio (DRR). We evaluate five Whisper models (tiny through large-v3) on 1600 test samples and report word error rate (WER) and character error rate (CER) under clean and reverberant conditions. Reverberation consistently degrades performance across all model sizes; the reverb penalty in WER ranges from 0.12 to 1.07 percentage points depending on the model. We release the dataset, evaluation code, and baseline results to support reproducible research on robust ASR.

Whisper-RIR-Mega: Un Conjunto de Datos de Referencia de Voz Limpia-Reverberante Emparejada para la Robustez del Reconocimiento Automático del Habla frente a Acústica de Salas

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Resumen

Support