Whisper-RIR-Mega: 음성 인식의 실내 음향 견고성을 위한 정제-잔향 음성 쌍 벤치마크
Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics
February 27, 2026
저자: Mandip Goswami
cs.AI
초록
음성 인식의 방음향적 강건성을 평가하기 위한 클린 및 잔향 음성 쌍으로 구성된 벤치마크 데이터셋인 Whisper-RIR-Mega를 소개한다. 각 샘플은 클린 LibriSpeech 발화와 RIR-Mega 코퍼스의 실제 실내 임펄스 응답으로 컨볼루션 처리된 동일 발화를 쌍으로 구성하며, 잔향 시간(RT60)과 직접음-잔향음 비율(DRR)에 따라 계층화된 분할을 적용했다. 5개의 Whisper 모델(tiny부터 large-v3까지)을 1600개의 테스트 샘플로 평가하였으며, 클린 및 잔향 조건에서의 단어 오류율(WER)과 문자 오류율(CER)을 보고한다. 잔향은 모든 모델 크기에서 일관되게 성능을 저하시켰으며, 모델에 따른 WER 기반 잔향 패널티는 0.12~1.07% 포인트 범위를 보였다. 강건한 음성 인식 연구의 재현성을 지원하기 위해 데이터셋, 평가 코드 및 기준 결과를 공개한다.
English
We introduce Whisper-RIR-Mega, a benchmark dataset of paired clean and reverberant speech for evaluating automatic speech recognition (ASR) robustness to room acoustics. Each sample pairs a clean LibriSpeech utterance with the same utterance convolved with a real room impulse response from the RIR-Mega corpus, with stratified splits by reverberation time (RT60) and direct-to-reverberant ratio (DRR). We evaluate five Whisper models (tiny through large-v3) on 1600 test samples and report word error rate (WER) and character error rate (CER) under clean and reverberant conditions. Reverberation consistently degrades performance across all model sizes; the reverb penalty in WER ranges from 0.12 to 1.07 percentage points depending on the model. We release the dataset, evaluation code, and baseline results to support reproducible research on robust ASR.