ChatPaper.aiChatPaper

RIR-Mega-Speech: 포괄적인 음향 메타데이터와 재현 가능한 평가를 갖춘 잔향 음성 코퍼스

RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation

January 25, 2026
저자: Mandip Goswami
cs.AI

초록

수십 년간의 잔향 음성 연구에도 불구하고, 대부분의 코퍼스가 파일별 음향 주해를 포함하지 않거나 재현을 위한 문서가 제한적으로 제공되어 방법론 비교가 어려운 상황입니다. 본 논문에서는 LibriSpeech 발화를 RIR-Mega 컬렉션의 약 5,000개 시뮬레이션 실음향 임펄스 응답과 합성하여 생성한 약 117.5시간 규모의 RIR-Mega-Speech 코퍼스를 제안합니다. 모든 파일에는 원본 RIR로부터 명확히 정의된 재현 가능한 절차로 계산된 RT60, 직접음-잔향음 비율(DRR), 명료도 지수(C_{50})가 포함됩니다. 또한 데이터셋 재구성 및 모든 평가 결과 재현을 위한 스크립트를 제공합니다. 1,500개의 대응 발화에 대해 Whisper small을 사용하여 측정한 결과, 잡음 없는 음성의 WER은 5.20%(95% 신뢰구간: 4.69-5.78), 잔향 음성은 7.70%(7.04-8.35)로 나타나 대응 증가분 2.50%p(2.06-2.98)에 해당하며, 이는 48%의 상대적 성능 저하를 의미합니다. WER은 RT60 증가에 따라 단조 증가하고 DRR 증가에 따라 감소하여 기존 지각 연구 결과와 일치합니다. 잔향이 인식 성능을 저하시킨다는 핵심 결과는 잘 알려져 있으나, 본 연구는 음향 조건이 투명하고 결과가 독립적으로 검증 가능한 표준화된 자원을 커뮤니티에 제공하는 것을 목표로 합니다. 저장소에는 Windows와 Linux 환경 모두에서 원클릭 재구성이 가능한 지침이 포함되어 있습니다.
English
Despite decades of research on reverberant speech, comparing methods remains difficult because most corpora lack per-file acoustic annotations or provide limited documentation for reproduction. We present RIR-Mega-Speech, a corpus of approximately 117.5 hours created by convolving LibriSpeech utterances with roughly 5,000 simulated room impulse responses from the RIR-Mega collection. Every file includes RT60, direct-to-reverberant ratio (DRR), and clarity index (C_{50}) computed from the source RIR using clearly defined, reproducible procedures. We also provide scripts to rebuild the dataset and reproduce all evaluation results. Using Whisper small on 1,500 paired utterances, we measure 5.20% WER (95% CI: 4.69--5.78) on clean speech and 7.70% (7.04--8.35) on reverberant versions, corresponding to a paired increase of 2.50 percentage points (2.06--2.98). This represents a 48% relative degradation. WER increases monotonically with RT60 and decreases with DRR, consistent with prior perceptual studies. While the core finding that reverberation harms recognition is well established, we aim to provide the community with a standardized resource where acoustic conditions are transparent and results can be verified independently. The repository includes one-command rebuild instructions for both Windows and Linux environments.
PDF31January 30, 2026