ChatPaper.aiChatPaper

Vox-Profile: Een Benchmark voor Spraakfundamentmodellen voor het Karakteriseren van Diverse Spreker- en Spraakkenmerken

Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits

May 20, 2025
Auteurs: Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan
cs.AI

Samenvatting

We introduceren Vox-Profile, een uitgebreide benchmark om rijke spreker- en spraakkenmerken te karakteriseren met behulp van spraakfundamentmodellen. In tegenstelling tot bestaande werken die zich richten op één dimensie van sprekerkenmerken, biedt Vox-Profile holistische en multidimensionale profielen die zowel statische sprekerkenmerken (bijv. leeftijd, geslacht, accent) als dynamische spraakeigenschappen (bijv. emotie, spraakstroom) weerspiegelen. Deze benchmark is gebaseerd op spraakwetenschap en linguïstiek, ontwikkeld met domeinexperts om spreker- en spraakkenmerken nauwkeurig te indexeren. We rapporteren benchmarkexperimenten met meer dan 15 publiek beschikbare spraakdatasets en verschillende veelgebruikte spraakfundamentmodellen die gericht zijn op diverse statische en dynamische spreker- en spraakeigenschappen. Naast benchmarkexperimenten demonstreren we verschillende downstreamtoepassingen die door Vox-Profile worden ondersteund. Ten eerste laten we zien dat Vox-Profile bestaande spraakherkenningsdatasets kan verrijken om de variabiliteit in ASR-prestaties te analyseren. Vox-Profile wordt ook gebruikt als een hulpmiddel om de prestaties van spraakgeneratiesystemen te evalueren. Tot slot beoordelen we de kwaliteit van onze geautomatiseerde profielen door vergelijking met menselijke evaluatie en tonen we convergente validiteit aan. Vox-Profile is publiekelijk beschikbaar op: https://github.com/tiantiaf0627/vox-profile-release.
English
We introduce Vox-Profile, a comprehensive benchmark to characterize rich speaker and speech traits using speech foundation models. Unlike existing works that focus on a single dimension of speaker traits, Vox-Profile provides holistic and multi-dimensional profiles that reflect both static speaker traits (e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech flow). This benchmark is grounded in speech science and linguistics, developed with domain experts to accurately index speaker and speech characteristics. We report benchmark experiments using over 15 publicly available speech datasets and several widely used speech foundation models that target various static and dynamic speaker and speech properties. In addition to benchmark experiments, we showcase several downstream applications supported by Vox-Profile. First, we show that Vox-Profile can augment existing speech recognition datasets to analyze ASR performance variability. Vox-Profile is also used as a tool to evaluate the performance of speech generation systems. Finally, we assess the quality of our automated profiles through comparison with human evaluation and show convergent validity. Vox-Profile is publicly available at: https://github.com/tiantiaf0627/vox-profile-release.

Summary

AI-Generated Summary

PDF72May 21, 2025