RIR-Mega-Speech: Um Corpus de Fala Reverberante com Metadados Acústicos Abrangentes e Avaliação Reproduzível

Resumo

Apesar de décadas de pesquisa sobre fala reverberante, a comparação de métodos continua difícil porque a maioria dos corpora carece de anotações acústicas por arquivo ou fornece documentação limitada para reprodução. Apresentamos o RIR-Mega-Speech, um corpus de aproximadamente 117,5 horas criado pela convolução de enunciados do LibriSpeech com cerca de 5.000 respostas ao impulso de sala simuladas da coleção RIR-Mega. Cada arquivo inclui RT60, relação direto-reverberante (DRR) e índice de clareza (C_{50}) calculados a partir da RIR de origem usando procedimentos claramente definidos e reproduzíveis. Também fornecemos scripts para reconstruir o conjunto de dados e reproduzir todos os resultados de avaliação. Usando o modelo Whisper small em 1.500 enunciados pareados, medimos uma Taxa de Erro de Palavras (WER) de 5,20% (IC 95%: 4,69–5,78) na fala limpa e de 7,70% (7,04–8,35) nas versões reverberantes, correspondendo a um aumento pareado de 2,50 pontos percentuais (2,06–2,98). Isso representa uma degradação relativa de 48%. A WER aumenta monotonicamente com o RT60 e diminui com a DRR, consistente com estudos perceptivos anteriores. Embora a conclusão central de que a reverberação prejudica o reconhecimento seja bem estabelecida, nosso objetivo é fornecer à comunidade um recurso padronizado onde as condições acústicas são transparentes e os resultados podem ser verificados de forma independente. O repositório inclui instruções de reconstrução com um único comando para ambientes Windows e Linux.

English

Despite decades of research on reverberant speech, comparing methods remains difficult because most corpora lack per-file acoustic annotations or provide limited documentation for reproduction. We present RIR-Mega-Speech, a corpus of approximately 117.5 hours created by convolving LibriSpeech utterances with roughly 5,000 simulated room impulse responses from the RIR-Mega collection. Every file includes RT60, direct-to-reverberant ratio (DRR), and clarity index (C_{50}) computed from the source RIR using clearly defined, reproducible procedures. We also provide scripts to rebuild the dataset and reproduce all evaluation results. Using Whisper small on 1,500 paired utterances, we measure 5.20% WER (95% CI: 4.69--5.78) on clean speech and 7.70% (7.04--8.35) on reverberant versions, corresponding to a paired increase of 2.50 percentage points (2.06--2.98). This represents a 48% relative degradation. WER increases monotonically with RT60 and decreases with DRR, consistent with prior perceptual studies. While the core finding that reverberation harms recognition is well established, we aim to provide the community with a standardized resource where acoustic conditions are transparent and results can be verified independently. The repository includes one-command rebuild instructions for both Windows and Linux environments.