Whisper-RIR-Mega: Бенчмарк парных чистых и реверберирующих речевых сигналов для оценки устойчивости ASR к комнатной акустике
Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics
February 27, 2026
Авторы: Mandip Goswami
cs.AI
Аннотация
Мы представляем Whisper-RIR-Mega — эталонный набор данных парных записей чистой и реверберирующей речи для оценки устойчивости автоматического распознавания речи (АРР) к акустике помещений. Каждый образец сопоставляет чистый фрагмент речи из LibriSpeech с тем же фрагментом, свернутым с реальной импульсной характеристикой помещения из корпуса RIR-Mega, с стратифицированными разбиениями по времени реверберации (RT60) и отношению прямого звука к реверберирующему (DRR). Мы оцениваем пять моделей Whisper (от tiny до large-v3) на 1600 тестовых образцах и сообщаем коэффициент ошибок по словам (WER) и символам (CER) в чистых и реверберирующих условиях. Реверберация последовательно ухудшает производительность для всех размеров моделей; "штраф" за реверберацию в WER составляет от 0,12 до 1,07 процентных пункта в зависимости от модели. Мы публикуем набор данных, код для оценки и базовые результаты для поддержки воспроизводимых исследований в области устойчивой АРР.
English
We introduce Whisper-RIR-Mega, a benchmark dataset of paired clean and reverberant speech for evaluating automatic speech recognition (ASR) robustness to room acoustics. Each sample pairs a clean LibriSpeech utterance with the same utterance convolved with a real room impulse response from the RIR-Mega corpus, with stratified splits by reverberation time (RT60) and direct-to-reverberant ratio (DRR). We evaluate five Whisper models (tiny through large-v3) on 1600 test samples and report word error rate (WER) and character error rate (CER) under clean and reverberant conditions. Reverberation consistently degrades performance across all model sizes; the reverb penalty in WER ranges from 0.12 to 1.07 percentage points depending on the model. We release the dataset, evaluation code, and baseline results to support reproducible research on robust ASR.