Voxlect: Ein Benchmark für Sprach-Foundation-Modelle zur Modellierung von Dialekten und regionalen Sprachen weltweit
Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe
August 3, 2025
papers.authors: Tiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan
cs.AI
papers.abstract
Wir präsentieren Voxlect, einen neuartigen Benchmark zur Modellierung von Dialekten und regionalen Sprachen weltweit unter Verwendung von Sprach-Foundation-Modellen. Insbesondere berichten wir umfassende Benchmark-Evaluierungen für Dialekte und regionale Sprachvarianten in Englisch, Arabisch, Mandarin und Kantonesisch, Tibetisch, indischen Sprachen, Thai, Spanisch, Französisch, Deutsch, Brasilianisch-Portugiesisch und Italienisch. Unsere Studie nutzte über 2 Millionen Trainingsäußerungen aus 30 öffentlich verfügbaren Sprachkorpora, die mit dialektalen Informationen versehen sind. Wir evaluieren die Leistung mehrerer weit verbreiteter Sprach-Foundation-Modelle bei der Klassifizierung von Sprachdialekten. Wir bewerten die Robustheit der dialektalen Modelle unter verrauschten Bedingungen und präsentieren eine Fehleranalyse, die Modellierungsergebnisse aufzeigt, die mit geografischer Kontinuität übereinstimmen. Neben der Benchmarking der Dialektklassifizierung demonstrieren wir mehrere Downstream-Anwendungen, die durch Voxlect ermöglicht werden. Insbesondere zeigen wir, dass Voxlect verwendet werden kann, um bestehende Spracherkennungsdatensätze mit Dialektinformationen zu erweitern, was eine detailliertere Analyse der ASR-Leistung über dialektale Variationen hinweg ermöglicht. Voxlect wird auch als Werkzeug zur Bewertung der Leistung von Sprachgenerierungssystemen eingesetzt. Voxlect ist öffentlich verfügbar unter der Lizenz der RAIL-Familie unter: https://github.com/tiantiaf0627/voxlect.
English
We present Voxlect, a novel benchmark for modeling dialects and regional
languages worldwide using speech foundation models. Specifically, we report
comprehensive benchmark evaluations on dialects and regional language varieties
in English, Arabic, Mandarin and Cantonese, Tibetan, Indic languages, Thai,
Spanish, French, German, Brazilian Portuguese, and Italian. Our study used over
2 million training utterances from 30 publicly available speech corpora that
are provided with dialectal information. We evaluate the performance of several
widely used speech foundation models in classifying speech dialects. We assess
the robustness of the dialectal models under noisy conditions and present an
error analysis that highlights modeling results aligned with geographic
continuity. In addition to benchmarking dialect classification, we demonstrate
several downstream applications enabled by Voxlect. Specifically, we show that
Voxlect can be applied to augment existing speech recognition datasets with
dialect information, enabling a more detailed analysis of ASR performance
across dialectal variations. Voxlect is also used as a tool to evaluate the
performance of speech generation systems. Voxlect is publicly available with
the license of the RAIL family at: https://github.com/tiantiaf0627/voxlect.