Vox-Profile : Un benchmark de modèle de fondation vocale pour la caractérisation des traits variés des locuteurs et de la parole
Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits
May 20, 2025
Auteurs: Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan
cs.AI
Résumé
Nous présentons Vox-Profile, un benchmark complet pour caractériser des traits riches des locuteurs et de la parole à l'aide de modèles de base de la parole. Contrairement aux travaux existants qui se concentrent sur une seule dimension des traits des locuteurs, Vox-Profile propose des profils holistiques et multidimensionnels qui reflètent à la fois des traits statiques des locuteurs (par exemple, l'âge, le sexe, l'accent) et des propriétés dynamiques de la parole (par exemple, l'émotion, le débit de parole). Ce benchmark s'appuie sur les sciences de la parole et la linguistique, développé avec des experts du domaine pour indexer avec précision les caractéristiques des locuteurs et de la parole. Nous rapportons des expériences de benchmark utilisant plus de 15 ensembles de données de parole publics et plusieurs modèles de base de la parole largement utilisés, ciblant diverses propriétés statiques et dynamiques des locuteurs et de la parole. En plus des expériences de benchmark, nous présentons plusieurs applications en aval soutenues par Vox-Profile. Premièrement, nous montrons que Vox-Profile peut enrichir les ensembles de données existants de reconnaissance vocale pour analyser la variabilité des performances de la reconnaissance automatique de la parole (ASR). Vox-Profile est également utilisé comme un outil pour évaluer les performances des systèmes de génération de parole. Enfin, nous évaluons la qualité de nos profils automatisés par comparaison avec une évaluation humaine et montrons une validité convergente. Vox-Profile est disponible publiquement à l'adresse suivante : https://github.com/tiantiaf0627/vox-profile-release.
English
We introduce Vox-Profile, a comprehensive benchmark to characterize rich
speaker and speech traits using speech foundation models. Unlike existing works
that focus on a single dimension of speaker traits, Vox-Profile provides
holistic and multi-dimensional profiles that reflect both static speaker traits
(e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech
flow). This benchmark is grounded in speech science and linguistics, developed
with domain experts to accurately index speaker and speech characteristics. We
report benchmark experiments using over 15 publicly available speech datasets
and several widely used speech foundation models that target various static and
dynamic speaker and speech properties. In addition to benchmark experiments, we
showcase several downstream applications supported by Vox-Profile. First, we
show that Vox-Profile can augment existing speech recognition datasets to
analyze ASR performance variability. Vox-Profile is also used as a tool to
evaluate the performance of speech generation systems. Finally, we assess the
quality of our automated profiles through comparison with human evaluation and
show convergent validity. Vox-Profile is publicly available at:
https://github.com/tiantiaf0627/vox-profile-release.Summary
AI-Generated Summary