Voxlect: Бенчмарк базовой модели речи для анализа диалектов и региональных языков по всему миру
Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe
August 3, 2025
Авторы: Tiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan
cs.AI
Аннотация
Мы представляем Voxlect, новый эталонный набор данных для моделирования диалектов и региональных языков по всему миру с использованием базовых моделей обработки речи. В частности, мы проводим всестороннюю оценку производительности на диалектах и региональных языковых вариантах английского, арабского, китайского (мандарин и кантонский), тибетского, индийских языков, тайского, испанского, французского, немецкого, бразильского португальского и итальянского. В нашем исследовании использовано более 2 миллионов обучающих высказываний из 30 общедоступных речевых корпусов, снабженных диалектной информацией. Мы оцениваем производительность нескольких широко используемых базовых моделей обработки речи в классификации речевых диалектов. Мы проверяем устойчивость диалектных моделей в условиях шума и представляем анализ ошибок, который подчеркивает результаты моделирования, соответствующие географической непрерывности. Помимо оценки классификации диалектов, мы демонстрируем несколько прикладных задач, которые становятся возможными благодаря Voxlect. В частности, мы показываем, что Voxlect может быть использован для дополнения существующих наборов данных для распознавания речи диалектной информацией, что позволяет проводить более детальный анализ производительности ASR в зависимости от диалектных вариаций. Voxlect также используется как инструмент для оценки производительности систем генерации речи. Voxlect доступен публично под лицензией семейства RAIL по адресу: https://github.com/tiantiaf0627/voxlect.
English
We present Voxlect, a novel benchmark for modeling dialects and regional
languages worldwide using speech foundation models. Specifically, we report
comprehensive benchmark evaluations on dialects and regional language varieties
in English, Arabic, Mandarin and Cantonese, Tibetan, Indic languages, Thai,
Spanish, French, German, Brazilian Portuguese, and Italian. Our study used over
2 million training utterances from 30 publicly available speech corpora that
are provided with dialectal information. We evaluate the performance of several
widely used speech foundation models in classifying speech dialects. We assess
the robustness of the dialectal models under noisy conditions and present an
error analysis that highlights modeling results aligned with geographic
continuity. In addition to benchmarking dialect classification, we demonstrate
several downstream applications enabled by Voxlect. Specifically, we show that
Voxlect can be applied to augment existing speech recognition datasets with
dialect information, enabling a more detailed analysis of ASR performance
across dialectal variations. Voxlect is also used as a tool to evaluate the
performance of speech generation systems. Voxlect is publicly available with
the license of the RAIL family at: https://github.com/tiantiaf0627/voxlect.