Voxlect : Un benchmark de modèle de fondation pour la parole dédié à la modélisation des dialectes et des langues régionales à travers le monde
Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe
August 3, 2025
papers.authors: Tiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan
cs.AI
papers.abstract
Nous présentons Voxlect, un nouveau benchmark pour la modélisation des dialectes et des langues régionales à l'échelle mondiale en utilisant des modèles de base pour la parole. Plus précisément, nous rapportons des évaluations complètes de benchmark sur les dialectes et les variétés linguistiques régionales en anglais, arabe, mandarin et cantonais, tibétain, langues indiennes, thaï, espagnol, français, allemand, portugais brésilien et italien. Notre étude a utilisé plus de 2 millions d'énoncés d'entraînement provenant de 30 corpus de parole disponibles publiquement et accompagnés d'informations dialectales. Nous évaluons les performances de plusieurs modèles de base pour la parole largement utilisés dans la classification des dialectes de parole. Nous examinons la robustesse des modèles dialectaux dans des conditions bruyantes et présentons une analyse d'erreur qui met en évidence des résultats de modélisation alignés avec la continuité géographique. En plus de l'évaluation de la classification des dialectes, nous démontrons plusieurs applications en aval rendues possibles par Voxlect. Plus précisément, nous montrons que Voxlect peut être appliqué pour enrichir les ensembles de données existants de reconnaissance vocale avec des informations dialectales, permettant une analyse plus détaillée des performances de la reconnaissance automatique de la parole (ASR) à travers les variations dialectales. Voxlect est également utilisé comme un outil pour évaluer les performances des systèmes de génération de parole. Voxlect est disponible publiquement sous la licence de la famille RAIL à l'adresse suivante : https://github.com/tiantiaf0627/voxlect.
English
We present Voxlect, a novel benchmark for modeling dialects and regional
languages worldwide using speech foundation models. Specifically, we report
comprehensive benchmark evaluations on dialects and regional language varieties
in English, Arabic, Mandarin and Cantonese, Tibetan, Indic languages, Thai,
Spanish, French, German, Brazilian Portuguese, and Italian. Our study used over
2 million training utterances from 30 publicly available speech corpora that
are provided with dialectal information. We evaluate the performance of several
widely used speech foundation models in classifying speech dialects. We assess
the robustness of the dialectal models under noisy conditions and present an
error analysis that highlights modeling results aligned with geographic
continuity. In addition to benchmarking dialect classification, we demonstrate
several downstream applications enabled by Voxlect. Specifically, we show that
Voxlect can be applied to augment existing speech recognition datasets with
dialect information, enabling a more detailed analysis of ASR performance
across dialectal variations. Voxlect is also used as a tool to evaluate the
performance of speech generation systems. Voxlect is publicly available with
the license of the RAIL family at: https://github.com/tiantiaf0627/voxlect.