Voxlect: Un modelo base de habla como referencia para el modelado de dialectos y lenguas regionales en todo el mundo
Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe
August 3, 2025
Autores: Tiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan
cs.AI
Resumen
Presentamos Voxlect, un nuevo punto de referencia para modelar dialectos y lenguas regionales a nivel mundial utilizando modelos fundamentales de habla. Específicamente, reportamos evaluaciones exhaustivas de referencia sobre variedades dialectales y lenguas regionales en inglés, árabe, mandarín y cantonés, tibetano, lenguas índicas, tailandés, español, francés, alemán, portugués brasileño e italiano. Nuestro estudio utilizó más de 2 millones de expresiones de entrenamiento provenientes de 30 corpus de habla disponibles públicamente que incluyen información dialectal. Evaluamos el rendimiento de varios modelos fundamentales de habla ampliamente utilizados en la clasificación de dialectos del habla. Analizamos la robustez de los modelos dialectales en condiciones ruidosas y presentamos un análisis de errores que destaca resultados de modelado alineados con la continuidad geográfica. Además de establecer un punto de referencia para la clasificación de dialectos, demostramos varias aplicaciones posteriores habilitadas por Voxlect. En particular, mostramos que Voxlect puede aplicarse para enriquecer conjuntos de datos existentes de reconocimiento de habla con información dialectal, permitiendo un análisis más detallado del rendimiento de ASR a través de variaciones dialectales. Voxlect también se utiliza como herramienta para evaluar el rendimiento de sistemas de generación de habla. Voxlect está disponible públicamente bajo la licencia de la familia RAIL en: https://github.com/tiantiaf0627/voxlect.
English
We present Voxlect, a novel benchmark for modeling dialects and regional
languages worldwide using speech foundation models. Specifically, we report
comprehensive benchmark evaluations on dialects and regional language varieties
in English, Arabic, Mandarin and Cantonese, Tibetan, Indic languages, Thai,
Spanish, French, German, Brazilian Portuguese, and Italian. Our study used over
2 million training utterances from 30 publicly available speech corpora that
are provided with dialectal information. We evaluate the performance of several
widely used speech foundation models in classifying speech dialects. We assess
the robustness of the dialectal models under noisy conditions and present an
error analysis that highlights modeling results aligned with geographic
continuity. In addition to benchmarking dialect classification, we demonstrate
several downstream applications enabled by Voxlect. Specifically, we show that
Voxlect can be applied to augment existing speech recognition datasets with
dialect information, enabling a more detailed analysis of ASR performance
across dialectal variations. Voxlect is also used as a tool to evaluate the
performance of speech generation systems. Voxlect is publicly available with
the license of the RAIL family at: https://github.com/tiantiaf0627/voxlect.