ChatPaper.aiChatPaper

Voxlect: 世界中の方言と地域言語をモデル化するための音声基盤モデルベンチマーク

Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe

August 3, 2025
著者: Tiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan
cs.AI

要旨

我々は、音声基盤モデルを用いて世界中の方言や地域言語をモデル化するための新しいベンチマーク「Voxlect」を提案する。具体的には、英語、アラビア語、北京語と広東語、チベット語、インド諸語、タイ語、スペイン語、フランス語、ドイツ語、ブラジルポルトガル語、イタリア語における方言や地域言語のバリエーションに関する包括的なベンチマーク評価を報告する。本研究では、方言情報が付与された30の公開音声コーパスから200万以上のトレーニング発話を使用した。我々は、広く使用されている複数の音声基盤モデルの方言分類性能を評価し、ノイズ条件下での方言モデルの頑健性を検証し、地理的連続性と一致するモデリング結果を強調するエラー分析を提示する。方言分類のベンチマークに加えて、Voxlectによって可能になるいくつかの下流アプリケーションを実証する。具体的には、Voxlectを既存の音声認識データセットに方言情報を付加するために適用し、方言変異にわたるASR性能の詳細な分析を可能にすることを示す。また、Voxlectは音声生成システムの性能評価ツールとしても使用される。VoxlectはRAILファミリーのライセンスで公開されており、以下から入手可能である:https://github.com/tiantiaf0627/voxlect
English
We present Voxlect, a novel benchmark for modeling dialects and regional languages worldwide using speech foundation models. Specifically, we report comprehensive benchmark evaluations on dialects and regional language varieties in English, Arabic, Mandarin and Cantonese, Tibetan, Indic languages, Thai, Spanish, French, German, Brazilian Portuguese, and Italian. Our study used over 2 million training utterances from 30 publicly available speech corpora that are provided with dialectal information. We evaluate the performance of several widely used speech foundation models in classifying speech dialects. We assess the robustness of the dialectal models under noisy conditions and present an error analysis that highlights modeling results aligned with geographic continuity. In addition to benchmarking dialect classification, we demonstrate several downstream applications enabled by Voxlect. Specifically, we show that Voxlect can be applied to augment existing speech recognition datasets with dialect information, enabling a more detailed analysis of ASR performance across dialectal variations. Voxlect is also used as a tool to evaluate the performance of speech generation systems. Voxlect is publicly available with the license of the RAIL family at: https://github.com/tiantiaf0627/voxlect.
PDF82August 5, 2025