Whisper-RIR-Mega: Um Benchmark de Fala Limpa-Reverberada Emparelhada para a Robustez do ASR à Acústica de Salas

Resumo

Apresentamos o Whisper-RIR-Mega, um conjunto de dados de referência de pares de fala limpa e reverberada para avaliar a robustez do reconhecimento automático de fala (ASR) à acústica ambiental. Cada amostra emparelha um segmento de áudio limpo do LibriSpeech com o mesmo segmento convoluído com uma resposta ao impulso de sala real do corpus RIR-Mega, com divisões estratificadas por tempo de reverberação (RT60) e razão direto-reverberante (DRR). Avaliamos cinco modelos Whisper (do tiny ao large-v3) em 1600 amostras de teste e relatamos a taxa de erro de palavra (WER) e a taxa de erro de caractere (CER) em condições limpas e reverberadas. A reverberação degrada consistentemente o desempenho em todos os tamanhos de modelo; a penalidade por reverberação na WER varia de 0,12 a 1,07 pontos percentuais, dependendo do modelo. Disponibilizamos o conjunto de dados, o código de avaliação e os resultados de linha de base para apoiar pesquisas reproduzíveis sobre ASR robusto.

English

We introduce Whisper-RIR-Mega, a benchmark dataset of paired clean and reverberant speech for evaluating automatic speech recognition (ASR) robustness to room acoustics. Each sample pairs a clean LibriSpeech utterance with the same utterance convolved with a real room impulse response from the RIR-Mega corpus, with stratified splits by reverberation time (RT60) and direct-to-reverberant ratio (DRR). We evaluate five Whisper models (tiny through large-v3) on 1600 test samples and report word error rate (WER) and character error rate (CER) under clean and reverberant conditions. Reverberation consistently degrades performance across all model sizes; the reverb penalty in WER ranges from 0.12 to 1.07 percentage points depending on the model. We release the dataset, evaluation code, and baseline results to support reproducible research on robust ASR.

Whisper-RIR-Mega: Um Benchmark de Fala Limpa-Reverberada Emparelhada para a Robustez do ASR à Acústica de Salas

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Resumo

Support