Voxlect: Um Benchmark de Modelo de Base de Fala para Modelagem de Dialetos e Línguas Regionais ao Redor do Mundo
Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe
August 3, 2025
Autores: Tiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan
cs.AI
Resumo
Apresentamos o Voxlect, um novo benchmark para modelagem de dialetos e línguas regionais em todo o mundo utilizando modelos de base de fala. Especificamente, relatamos avaliações abrangentes de benchmark em variedades de dialetos e línguas regionais em inglês, árabe, mandarim e cantonês, tibetano, línguas indianas, tailandês, espanhol, francês, alemão, português brasileiro e italiano. Nosso estudo utilizou mais de 2 milhões de enunciados de treinamento provenientes de 30 corpora de fala publicamente disponíveis que são fornecidos com informações dialetais. Avaliamos o desempenho de vários modelos de base de fala amplamente utilizados na classificação de dialetos de fala. Avaliamos a robustez dos modelos dialetais em condições ruidosas e apresentamos uma análise de erros que destaca resultados de modelagem alinhados com a continuidade geográfica. Além de avaliar a classificação de dialetos, demonstramos várias aplicações subsequentes possibilitadas pelo Voxlect. Especificamente, mostramos que o Voxlect pode ser aplicado para aumentar conjuntos de dados existentes de reconhecimento de fala com informações dialetais, permitindo uma análise mais detalhada do desempenho de ASR em variações dialetais. O Voxlect também é utilizado como uma ferramenta para avaliar o desempenho de sistemas de geração de fala. O Voxlect está publicamente disponível com a licença da família RAIL em: https://github.com/tiantiaf0627/voxlect.
English
We present Voxlect, a novel benchmark for modeling dialects and regional
languages worldwide using speech foundation models. Specifically, we report
comprehensive benchmark evaluations on dialects and regional language varieties
in English, Arabic, Mandarin and Cantonese, Tibetan, Indic languages, Thai,
Spanish, French, German, Brazilian Portuguese, and Italian. Our study used over
2 million training utterances from 30 publicly available speech corpora that
are provided with dialectal information. We evaluate the performance of several
widely used speech foundation models in classifying speech dialects. We assess
the robustness of the dialectal models under noisy conditions and present an
error analysis that highlights modeling results aligned with geographic
continuity. In addition to benchmarking dialect classification, we demonstrate
several downstream applications enabled by Voxlect. Specifically, we show that
Voxlect can be applied to augment existing speech recognition datasets with
dialect information, enabling a more detailed analysis of ASR performance
across dialectal variations. Voxlect is also used as a tool to evaluate the
performance of speech generation systems. Voxlect is publicly available with
the license of the RAIL family at: https://github.com/tiantiaf0627/voxlect.