Vox-Profile: Ein Benchmark für Sprach-Foundation-Modelle zur Charakterisierung vielfältiger Sprecher- und Spracheigenschaften
Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits
May 20, 2025
Autoren: Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan
cs.AI
Zusammenfassung
Wir stellen Vox-Profile vor, einen umfassenden Benchmark zur Charakterisierung vielfältiger Sprecher- und Spracheigenschaften mithilfe von Sprach-Foundation-Modellen. Im Gegensatz zu bestehenden Arbeiten, die sich auf eine einzelne Dimension von Sprechermerkmalen konzentrieren, bietet Vox-Profile ganzheitliche und mehrdimensionale Profile, die sowohl statische Sprechermerkmale (z. B. Alter, Geschlecht, Akzent) als auch dynamische Spracheigenschaften (z. B. Emotion, Sprachfluss) widerspiegeln. Dieser Benchmark ist in der Sprachwissenschaft und Linguistik verankert und wurde in Zusammenarbeit mit Fachexperten entwickelt, um Sprecher- und Spracheigenschaften präzise zu erfassen. Wir berichten über Benchmark-Experimente mit mehr als 15 öffentlich verfügbaren Sprachdatensätzen und mehreren weit verbreiteten Sprach-Foundation-Modellen, die verschiedene statische und dynamische Sprecher- und Spracheigenschaften abdecken. Neben den Benchmark-Experimenten zeigen wir mehrere Downstream-Anwendungen, die durch Vox-Profile unterstützt werden. Erstens demonstrieren wir, dass Vox-Profile bestehende Spracherkennungsdatensätze erweitern kann, um die Variabilität der ASR-Leistung zu analysieren. Vox-Profile wird auch als Werkzeug zur Bewertung der Leistung von Sprachgenerierungssystemen eingesetzt. Schließlich bewerten wir die Qualität unserer automatisierten Profile durch den Vergleich mit menschlichen Bewertungen und zeigen konvergente Validität. Vox-Profile ist öffentlich verfügbar unter: https://github.com/tiantiaf0627/vox-profile-release.
English
We introduce Vox-Profile, a comprehensive benchmark to characterize rich
speaker and speech traits using speech foundation models. Unlike existing works
that focus on a single dimension of speaker traits, Vox-Profile provides
holistic and multi-dimensional profiles that reflect both static speaker traits
(e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech
flow). This benchmark is grounded in speech science and linguistics, developed
with domain experts to accurately index speaker and speech characteristics. We
report benchmark experiments using over 15 publicly available speech datasets
and several widely used speech foundation models that target various static and
dynamic speaker and speech properties. In addition to benchmark experiments, we
showcase several downstream applications supported by Vox-Profile. First, we
show that Vox-Profile can augment existing speech recognition datasets to
analyze ASR performance variability. Vox-Profile is also used as a tool to
evaluate the performance of speech generation systems. Finally, we assess the
quality of our automated profiles through comparison with human evaluation and
show convergent validity. Vox-Profile is publicly available at:
https://github.com/tiantiaf0627/vox-profile-release.Summary
AI-Generated Summary