RIR-Mega-Speech : Un corpus de parole réverbérante avec des métadonnées acoustiques complètes et une évaluation reproductible
RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation
January 25, 2026
papers.authors: Mandip Goswami
cs.AI
papers.abstract
Malgré des décennies de recherche sur la parole réverbérante, la comparaison des méthodes reste difficile car la plupart des corpus manquent d'annotations acoustiques par fichier ou fournissent une documentation limitée pour la reproduction. Nous présentons RIR-Mega-Speech, un corpus d'environ 117,5 heures créé en convoluant des énoncés de LibriSpeech avec environ 5 000 réponses impulsionnelles de salle simulées issues de la collection RIR-Mega. Chaque fichier inclut le TR60, le rapport direct/réverbéré (DRR) et l'indice de clarté (C₅₀) calculés à partir de la RIR source en utilisant des procédures clairement définies et reproductibles. Nous fournissons également des scripts pour reconstruire le jeu de données et reproduire tous les résultats d'évaluation.
En utilisant Whisper small sur 1 500 énoncés appariés, nous mesurons un taux d'erreur de mots (WER) de 5,20 % (IC à 95 % : 4,69–5,78) sur la parole non bruitée et de 7,70 % (7,04–8,35) sur les versions réverbérées, ce qui correspond à une augmentation appariée de 2,50 points de pourcentage (2,06–2,98). Cela représente une dégradation relative de 48 %. Le WER augmente de manière monotone avec le TR60 et diminue avec le DRR, ce qui est cohérent avec les études perceptives antérieures. Bien que le résultat fondamental selon lequel la réverbération nuit à la reconnaissance soit bien établi, nous visons à fournir à la communauté une ressource standardisée où les conditions acoustiques sont transparentes et les résultats peuvent être vérifiés indépendamment. Le dépôt inclut des instructions de reconstruction en une seule commande pour les environnements Windows et Linux.
English
Despite decades of research on reverberant speech, comparing methods remains difficult because most corpora lack per-file acoustic annotations or provide limited documentation for reproduction. We present RIR-Mega-Speech, a corpus of approximately 117.5 hours created by convolving LibriSpeech utterances with roughly 5,000 simulated room impulse responses from the RIR-Mega collection. Every file includes RT60, direct-to-reverberant ratio (DRR), and clarity index (C_{50}) computed from the source RIR using clearly defined, reproducible procedures. We also provide scripts to rebuild the dataset and reproduce all evaluation results.
Using Whisper small on 1,500 paired utterances, we measure 5.20% WER (95% CI: 4.69--5.78) on clean speech and 7.70% (7.04--8.35) on reverberant versions, corresponding to a paired increase of 2.50 percentage points (2.06--2.98). This represents a 48% relative degradation. WER increases monotonically with RT60 and decreases with DRR, consistent with prior perceptual studies. While the core finding that reverberation harms recognition is well established, we aim to provide the community with a standardized resource where acoustic conditions are transparent and results can be verified independently. The repository includes one-command rebuild instructions for both Windows and Linux environments.