Vox-Profile: 多様な話者および音声特性を特徴付けるための音声基盤モデルベンチマーク
Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits
May 20, 2025
著者: Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan
cs.AI
要旨
我々は、音声基盤モデルを用いて豊富な話者特性と音声特性を特徴付ける包括的なベンチマークであるVox-Profileを紹介する。既存の研究が話者特性の単一の次元に焦点を当てているのに対し、Vox-Profileは、静的な話者特性(例:年齢、性別、アクセント)と動的な音声特性(例:感情、音声の流れ)の両方を反映した、包括的かつ多次元的なプロファイルを提供する。このベンチマークは、音声科学と言語学に基づいており、領域の専門家と共に開発され、話者と音声の特性を正確に指標化する。我々は、15以上の公開音声データセットと、様々な静的なおよび動的な話者特性と音声特性を対象とした広く使用されている音声基盤モデルを用いたベンチマーク実験を報告する。ベンチマーク実験に加えて、Vox-Profileがサポートするいくつかの下流アプリケーションを紹介する。まず、Vox-Profileが既存の音声認識データセットを拡張し、ASR性能の変動を分析するために使用できることを示す。また、Vox-Profileは音声生成システムの性能を評価するツールとしても使用される。最後に、自動化されたプロファイルの品質を人間による評価と比較し、収束妥当性を示す。Vox-Profileは、https://github.com/tiantiaf0627/vox-profile-release で公開されている。
English
We introduce Vox-Profile, a comprehensive benchmark to characterize rich
speaker and speech traits using speech foundation models. Unlike existing works
that focus on a single dimension of speaker traits, Vox-Profile provides
holistic and multi-dimensional profiles that reflect both static speaker traits
(e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech
flow). This benchmark is grounded in speech science and linguistics, developed
with domain experts to accurately index speaker and speech characteristics. We
report benchmark experiments using over 15 publicly available speech datasets
and several widely used speech foundation models that target various static and
dynamic speaker and speech properties. In addition to benchmark experiments, we
showcase several downstream applications supported by Vox-Profile. First, we
show that Vox-Profile can augment existing speech recognition datasets to
analyze ASR performance variability. Vox-Profile is also used as a tool to
evaluate the performance of speech generation systems. Finally, we assess the
quality of our automated profiles through comparison with human evaluation and
show convergent validity. Vox-Profile is publicly available at:
https://github.com/tiantiaf0627/vox-profile-release.Summary
AI-Generated Summary