RIR-Mega-Speech: Un Corpus de Habla Reverberante con Metadatos Acústicos Integrales y Evaluación Reproducible
RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation
January 25, 2026
Autores: Mandip Goswami
cs.AI
Resumen
A pesar de décadas de investigación sobre el habla reverberante, la comparación de métodos sigue siendo difícil porque la mayoría de los corpus carecen de anotaciones acústicas por archivo o proporcionan documentación limitada para su reproducción. Presentamos RIR-Mega-Speech, un corpus de aproximadamente 117,5 horas creado mediante la convolución de enunciados de LibriSpeech con aproximadamente 5.000 respuestas impulsionales de sala simuladas de la colección RIR-Mega. Cada archivo incluye el RT60, la relación directo-reverberante (DRR) y el índice de claridad (C₅₀) calculados a partir de la RIR fuente utilizando procedimientos claramente definidos y reproducibles. También proporcionamos scripts para reconstruir el conjunto de datos y reproducir todos los resultados de evaluación.
Utilizando Whisper small en 1.500 enunciados emparejados, medimos un 5,20% de Tasa de Error de Palabra (TEP) (IC del 95%: 4,69–5,78) en habla limpia y un 7,70% (7,04–8,35) en las versiones reverberantes, lo que corresponde a un aumento emparejado de 2,50 puntos porcentuales (2,06–2,98). Esto representa una degradación relativa del 48%. La TEP aumenta monótonamente con el RT60 y disminuye con la DRR, lo que es consistente con estudios perceptuales previos. Si bien el hallazgo central de que la reverberación perjudica el reconocimiento está bien establecido, nuestro objetivo es proporcionar a la comunidad un recurso estandarizado donde las condiciones acústicas sean transparentes y los resultados puedan verificarse de forma independiente. El repositorio incluye instrucciones de reconstrucción con un solo comando para entornos tanto Windows como Linux.
English
Despite decades of research on reverberant speech, comparing methods remains difficult because most corpora lack per-file acoustic annotations or provide limited documentation for reproduction. We present RIR-Mega-Speech, a corpus of approximately 117.5 hours created by convolving LibriSpeech utterances with roughly 5,000 simulated room impulse responses from the RIR-Mega collection. Every file includes RT60, direct-to-reverberant ratio (DRR), and clarity index (C_{50}) computed from the source RIR using clearly defined, reproducible procedures. We also provide scripts to rebuild the dataset and reproduce all evaluation results.
Using Whisper small on 1,500 paired utterances, we measure 5.20% WER (95% CI: 4.69--5.78) on clean speech and 7.70% (7.04--8.35) on reverberant versions, corresponding to a paired increase of 2.50 percentage points (2.06--2.98). This represents a 48% relative degradation. WER increases monotonically with RT60 and decreases with DRR, consistent with prior perceptual studies. While the core finding that reverberation harms recognition is well established, we aim to provide the community with a standardized resource where acoustic conditions are transparent and results can be verified independently. The repository includes one-command rebuild instructions for both Windows and Linux environments.