ChatPaper.aiChatPaper

RIR-Mega-Speech:包括的な音響メタデータと再現性のある評価を備えた残響音声コーパス

RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation

January 25, 2026
著者: Mandip Goswami
cs.AI

要旨

残響音声に関する数十年にわたる研究にもかかわらず、ほとんどのコーパスがファイル単位の音響注釈を欠いているか、再現のための限定的なドキュメントしか提供していないため、手法の比較は困難である。本論文では、LibriSpeech発話をRIR-Megaコレクションの約5,000のシミュレートされた室内インパルス応答と畳み込むことで作成した、約117.5時間のコーパス「RIR-Mega-Speech」を提案する。全てのファイルには、明確に定義された再現可能な手順を用いて元のRIRから計算されたRT60、直接音と残響音の比(DRR)、明瞭度指数(C_{50})が含まれる。データセットの再構築と全ての評価結果の再現を行うスクリプトも提供する。 1,500の対になった発話に対してWhisper smallを使用した評価では、クリーン音声の単語誤り率(WER)は5.20%(95%信頼区間: 4.69–5.78)、残響音声版では7.70%(7.04–8.35)となり、対にした場合の増加量は2.50パーセントポイント(2.06–2.98)であった。これは48%の相対的な性能劣化に相当する。WERはRT60の増加に伴って単調に増加し、DRRの増加に伴って減少し、従来の知覚研究と一致した。残響が認識性能を低下させるという核心的な知見は既に確立されているが、本研究の目的は、音響条件が透明で結果が独立して検証可能な標準化されたリソースをコミュニティに提供することである。リポジトリには、Windows環境とLinux環境の両方に対応したワンコマンド再構築手順を含む。
English
Despite decades of research on reverberant speech, comparing methods remains difficult because most corpora lack per-file acoustic annotations or provide limited documentation for reproduction. We present RIR-Mega-Speech, a corpus of approximately 117.5 hours created by convolving LibriSpeech utterances with roughly 5,000 simulated room impulse responses from the RIR-Mega collection. Every file includes RT60, direct-to-reverberant ratio (DRR), and clarity index (C_{50}) computed from the source RIR using clearly defined, reproducible procedures. We also provide scripts to rebuild the dataset and reproduce all evaluation results. Using Whisper small on 1,500 paired utterances, we measure 5.20% WER (95% CI: 4.69--5.78) on clean speech and 7.70% (7.04--8.35) on reverberant versions, corresponding to a paired increase of 2.50 percentage points (2.06--2.98). This represents a 48% relative degradation. WER increases monotonically with RT60 and decreases with DRR, consistent with prior perceptual studies. While the core finding that reverberation harms recognition is well established, we aim to provide the community with a standardized resource where acoustic conditions are transparent and results can be verified independently. The repository includes one-command rebuild instructions for both Windows and Linux environments.
PDF31January 30, 2026