Voxlect : Un benchmark de modèle de fondation pour la parole dédié à la modélisation des dialectes et des langues régionales à travers le monde

Résumé

Nous présentons Voxlect, un nouveau benchmark pour la modélisation des dialectes et des langues régionales à l'échelle mondiale en utilisant des modèles de base pour la parole. Plus précisément, nous rapportons des évaluations complètes de benchmark sur les dialectes et les variétés linguistiques régionales en anglais, arabe, mandarin et cantonais, tibétain, langues indiennes, thaï, espagnol, français, allemand, portugais brésilien et italien. Notre étude a utilisé plus de 2 millions d'énoncés d'entraînement provenant de 30 corpus de parole disponibles publiquement et accompagnés d'informations dialectales. Nous évaluons les performances de plusieurs modèles de base pour la parole largement utilisés dans la classification des dialectes de parole. Nous examinons la robustesse des modèles dialectaux dans des conditions bruyantes et présentons une analyse d'erreur qui met en évidence des résultats de modélisation alignés avec la continuité géographique. En plus de l'évaluation de la classification des dialectes, nous démontrons plusieurs applications en aval rendues possibles par Voxlect. Plus précisément, nous montrons que Voxlect peut être appliqué pour enrichir les ensembles de données existants de reconnaissance vocale avec des informations dialectales, permettant une analyse plus détaillée des performances de la reconnaissance automatique de la parole (ASR) à travers les variations dialectales. Voxlect est également utilisé comme un outil pour évaluer les performances des systèmes de génération de parole. Voxlect est disponible publiquement sous la licence de la famille RAIL à l'adresse suivante : https://github.com/tiantiaf0627/voxlect.

English

We present Voxlect, a novel benchmark for modeling dialects and regional languages worldwide using speech foundation models. Specifically, we report comprehensive benchmark evaluations on dialects and regional language varieties in English, Arabic, Mandarin and Cantonese, Tibetan, Indic languages, Thai, Spanish, French, German, Brazilian Portuguese, and Italian. Our study used over 2 million training utterances from 30 publicly available speech corpora that are provided with dialectal information. We evaluate the performance of several widely used speech foundation models in classifying speech dialects. We assess the robustness of the dialectal models under noisy conditions and present an error analysis that highlights modeling results aligned with geographic continuity. In addition to benchmarking dialect classification, we demonstrate several downstream applications enabled by Voxlect. Specifically, we show that Voxlect can be applied to augment existing speech recognition datasets with dialect information, enabling a more detailed analysis of ASR performance across dialectal variations. Voxlect is also used as a tool to evaluate the performance of speech generation systems. Voxlect is publicly available with the license of the RAIL family at: https://github.com/tiantiaf0627/voxlect.