Vox-Profile: Ein Benchmark für Sprach-Foundation-Modelle zur Charakterisierung vielfältiger Sprecher- und Spracheigenschaften

papers.abstract

Wir stellen Vox-Profile vor, einen umfassenden Benchmark zur Charakterisierung vielfältiger Sprecher- und Spracheigenschaften mithilfe von Sprach-Foundation-Modellen. Im Gegensatz zu bestehenden Arbeiten, die sich auf eine einzelne Dimension von Sprechermerkmalen konzentrieren, bietet Vox-Profile ganzheitliche und mehrdimensionale Profile, die sowohl statische Sprechermerkmale (z. B. Alter, Geschlecht, Akzent) als auch dynamische Spracheigenschaften (z. B. Emotion, Sprachfluss) widerspiegeln. Dieser Benchmark ist in der Sprachwissenschaft und Linguistik verankert und wurde in Zusammenarbeit mit Fachexperten entwickelt, um Sprecher- und Spracheigenschaften präzise zu erfassen. Wir berichten über Benchmark-Experimente mit mehr als 15 öffentlich verfügbaren Sprachdatensätzen und mehreren weit verbreiteten Sprach-Foundation-Modellen, die verschiedene statische und dynamische Sprecher- und Spracheigenschaften abdecken. Neben den Benchmark-Experimenten zeigen wir mehrere Downstream-Anwendungen, die durch Vox-Profile unterstützt werden. Erstens demonstrieren wir, dass Vox-Profile bestehende Spracherkennungsdatensätze erweitern kann, um die Variabilität der ASR-Leistung zu analysieren. Vox-Profile wird auch als Werkzeug zur Bewertung der Leistung von Sprachgenerierungssystemen eingesetzt. Schließlich bewerten wir die Qualität unserer automatisierten Profile durch den Vergleich mit menschlichen Bewertungen und zeigen konvergente Validität. Vox-Profile ist öffentlich verfügbar unter: https://github.com/tiantiaf0627/vox-profile-release.

English

We introduce Vox-Profile, a comprehensive benchmark to characterize rich speaker and speech traits using speech foundation models. Unlike existing works that focus on a single dimension of speaker traits, Vox-Profile provides holistic and multi-dimensional profiles that reflect both static speaker traits (e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech flow). This benchmark is grounded in speech science and linguistics, developed with domain experts to accurately index speaker and speech characteristics. We report benchmark experiments using over 15 publicly available speech datasets and several widely used speech foundation models that target various static and dynamic speaker and speech properties. In addition to benchmark experiments, we showcase several downstream applications supported by Vox-Profile. First, we show that Vox-Profile can augment existing speech recognition datasets to analyze ASR performance variability. Vox-Profile is also used as a tool to evaluate the performance of speech generation systems. Finally, we assess the quality of our automated profiles through comparison with human evaluation and show convergent validity. Vox-Profile is publicly available at: https://github.com/tiantiaf0627/vox-profile-release.

Vox-Profile: Ein Benchmark für Sprach-Foundation-Modelle zur Charakterisierung vielfältiger Sprecher- und Spracheigenschaften

Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits

papers.abstract

Support