Voxlect: Een Benchmark voor Spraakfundamentmodellen voor het Modelleren van Dialecten en Regionale Talen Wereldwijd
Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe
August 3, 2025
Auteurs: Tiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan
cs.AI
Samenvatting
We presenteren Voxlect, een nieuwe benchmark voor het modelleren van dialecten en regionale talen wereldwijd met behulp van spraakfundamentmodellen. Specifiek rapporteren we uitgebreide benchmarkevaluaties van dialecten en regionale taalvarianten in het Engels, Arabisch, Mandarijn en Kantonees, Tibetaans, Indische talen, Thai, Spaans, Frans, Duits, Braziliaans Portugees en Italiaans. Onze studie maakte gebruik van meer dan 2 miljoen trainingsuitingen uit 30 openbaar beschikbare spraakcorpora die voorzien zijn van dialectinformatie. We evalueren de prestaties van verschillende veelgebruikte spraakfundamentmodellen bij het classificeren van spraakdialecten. We beoordelen de robuustheid van de dialectmodellen onder rumoerige omstandigheden en presenteren een foutenanalyse die modelresultaten benadrukt die overeenkomen met geografische continuïteit. Naast het benchmarken van dialectclassificatie demonstreren we verschillende downstreamtoepassingen die mogelijk worden gemaakt door Voxlect. Specifiek tonen we aan dat Voxlect kan worden toegepast om bestaande spraakherkenningsdatasets aan te vullen met dialectinformatie, waardoor een gedetailleerdere analyse van ASR-prestaties over dialectvariatie mogelijk wordt. Voxlect wordt ook gebruikt als een hulpmiddel om de prestaties van spraakgeneratiesystemen te evalueren. Voxlect is publiekelijk beschikbaar onder de licentie van de RAIL-familie op: https://github.com/tiantiaf0627/voxlect.
English
We present Voxlect, a novel benchmark for modeling dialects and regional
languages worldwide using speech foundation models. Specifically, we report
comprehensive benchmark evaluations on dialects and regional language varieties
in English, Arabic, Mandarin and Cantonese, Tibetan, Indic languages, Thai,
Spanish, French, German, Brazilian Portuguese, and Italian. Our study used over
2 million training utterances from 30 publicly available speech corpora that
are provided with dialectal information. We evaluate the performance of several
widely used speech foundation models in classifying speech dialects. We assess
the robustness of the dialectal models under noisy conditions and present an
error analysis that highlights modeling results aligned with geographic
continuity. In addition to benchmarking dialect classification, we demonstrate
several downstream applications enabled by Voxlect. Specifically, we show that
Voxlect can be applied to augment existing speech recognition datasets with
dialect information, enabling a more detailed analysis of ASR performance
across dialectal variations. Voxlect is also used as a tool to evaluate the
performance of speech generation systems. Voxlect is publicly available with
the license of the RAIL family at: https://github.com/tiantiaf0627/voxlect.