Voxlect: Un Benchmark per Modelli Fondamentali del Linguaggio Parlato per la Modellizzazione di Dialetti e Lingue Regionali in Tutto il Mondo
Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe
August 3, 2025
Autori: Tiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan
cs.AI
Abstract
Presentiamo Voxlect, un nuovo benchmark per la modellazione di dialetti e lingue regionali a livello globale utilizzando modelli di base per il riconoscimento vocale. Nello specifico, riportiamo valutazioni complete del benchmark su varietà dialettali e linguistiche regionali in inglese, arabo, mandarino e cantonese, tibetano, lingue indiane, thai, spagnolo, francese, tedesco, portoghese brasiliano e italiano. Il nostro studio ha utilizzato oltre 2 milioni di espressioni di addestramento provenienti da 30 corpora vocali pubblicamente disponibili, forniti con informazioni dialettali. Valutiamo le prestazioni di diversi modelli di base per il riconoscimento vocale ampiamente utilizzati nella classificazione dei dialetti vocali. Analizziamo la robustezza dei modelli dialettali in condizioni rumorose e presentiamo un'analisi degli errori che evidenzia risultati di modellazione allineati con la continuità geografica. Oltre al benchmarking della classificazione dialettale, dimostriamo diverse applicazioni downstream abilitate da Voxlect. In particolare, mostriamo che Voxlect può essere applicato per arricchire i dataset esistenti di riconoscimento vocale con informazioni dialettali, consentendo un'analisi più dettagliata delle prestazioni ASR attraverso variazioni dialettali. Voxlect viene inoltre utilizzato come strumento per valutare le prestazioni dei sistemi di generazione vocale. Voxlect è disponibile pubblicamente con la licenza della famiglia RAIL all'indirizzo: https://github.com/tiantiaf0627/voxlect.
English
We present Voxlect, a novel benchmark for modeling dialects and regional
languages worldwide using speech foundation models. Specifically, we report
comprehensive benchmark evaluations on dialects and regional language varieties
in English, Arabic, Mandarin and Cantonese, Tibetan, Indic languages, Thai,
Spanish, French, German, Brazilian Portuguese, and Italian. Our study used over
2 million training utterances from 30 publicly available speech corpora that
are provided with dialectal information. We evaluate the performance of several
widely used speech foundation models in classifying speech dialects. We assess
the robustness of the dialectal models under noisy conditions and present an
error analysis that highlights modeling results aligned with geographic
continuity. In addition to benchmarking dialect classification, we demonstrate
several downstream applications enabled by Voxlect. Specifically, we show that
Voxlect can be applied to augment existing speech recognition datasets with
dialect information, enabling a more detailed analysis of ASR performance
across dialectal variations. Voxlect is also used as a tool to evaluate the
performance of speech generation systems. Voxlect is publicly available with
the license of the RAIL family at: https://github.com/tiantiaf0627/voxlect.