Vox-Profile: Un benchmark per modelli fondazionali del parlato per la caratterizzazione di tratti vocali e del parlante diversificati
Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits
May 20, 2025
Autori: Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan
cs.AI
Abstract
Presentiamo Vox-Profile, un benchmark completo per caratterizzare tratti ricchi del parlante e del discorso utilizzando modelli di fondazione del parlato. A differenza dei lavori esistenti che si concentrano su una singola dimensione dei tratti del parlante, Vox-Profile fornisce profili olistici e multidimensionali che riflettono sia tratti statici del parlante (ad esempio, età, sesso, accento) che proprietà dinamiche del discorso (ad esempio, emozione, flusso del parlato). Questo benchmark è radicato nella scienza del parlato e nella linguistica, sviluppato con esperti del settore per indicizzare accuratamente le caratteristiche del parlante e del discorso. Riportiamo esperimenti di benchmark utilizzando oltre 15 dataset di parlato pubblicamente disponibili e diversi modelli di fondazione del parlato ampiamente utilizzati che mirano a varie proprietà statiche e dinamiche del parlante e del discorso. Oltre agli esperimenti di benchmark, mostriamo diverse applicazioni downstream supportate da Vox-Profile. In primo luogo, dimostriamo che Vox-Profile può arricchire i dataset esistenti di riconoscimento del parlato per analizzare la variabilità delle prestazioni ASR. Vox-Profile è anche utilizzato come strumento per valutare le prestazioni dei sistemi di generazione del parlato. Infine, valutiamo la qualità dei nostri profili automatizzati attraverso il confronto con la valutazione umana e mostriamo una validità convergente. Vox-Profile è disponibile pubblicamente all'indirizzo: https://github.com/tiantiaf0627/vox-profile-release.
English
We introduce Vox-Profile, a comprehensive benchmark to characterize rich
speaker and speech traits using speech foundation models. Unlike existing works
that focus on a single dimension of speaker traits, Vox-Profile provides
holistic and multi-dimensional profiles that reflect both static speaker traits
(e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech
flow). This benchmark is grounded in speech science and linguistics, developed
with domain experts to accurately index speaker and speech characteristics. We
report benchmark experiments using over 15 publicly available speech datasets
and several widely used speech foundation models that target various static and
dynamic speaker and speech properties. In addition to benchmark experiments, we
showcase several downstream applications supported by Vox-Profile. First, we
show that Vox-Profile can augment existing speech recognition datasets to
analyze ASR performance variability. Vox-Profile is also used as a tool to
evaluate the performance of speech generation systems. Finally, we assess the
quality of our automated profiles through comparison with human evaluation and
show convergent validity. Vox-Profile is publicly available at:
https://github.com/tiantiaf0627/vox-profile-release.