Vox-Profile: Un punto de referencia de modelo fundacional de habla para caracterizar diversos rasgos del hablante y del habla
Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits
May 20, 2025
Autores: Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan
cs.AI
Resumen
Presentamos Vox-Profile, un benchmark integral para caracterizar rasgos ricos del hablante y del habla utilizando modelos fundamentales de habla. A diferencia de trabajos existentes que se centran en una sola dimensión de los rasgos del hablante, Vox-Profile ofrece perfiles holísticos y multidimensionales que reflejan tanto rasgos estáticos del hablante (por ejemplo, edad, sexo, acento) como propiedades dinámicas del habla (por ejemplo, emoción, fluidez del habla). Este benchmark está fundamentado en la ciencia del habla y la lingüística, desarrollado con expertos en el dominio para indexar con precisión las características del hablante y del habla. Reportamos experimentos de benchmark utilizando más de 15 conjuntos de datos de habla públicamente disponibles y varios modelos fundamentales de habla ampliamente utilizados que abordan diversas propiedades estáticas y dinámicas del hablante y del habla. Además de los experimentos de benchmark, mostramos varias aplicaciones posteriores respaldadas por Vox-Profile. Primero, demostramos que Vox-Profile puede aumentar conjuntos de datos existentes de reconocimiento de habla para analizar la variabilidad en el rendimiento de ASR. Vox-Profile también se utiliza como una herramienta para evaluar el rendimiento de los sistemas de generación de habla. Finalmente, evaluamos la calidad de nuestros perfiles automatizados mediante la comparación con evaluaciones humanas y mostramos validez convergente. Vox-Profile está disponible públicamente en: https://github.com/tiantiaf0627/vox-profile-release.
English
We introduce Vox-Profile, a comprehensive benchmark to characterize rich
speaker and speech traits using speech foundation models. Unlike existing works
that focus on a single dimension of speaker traits, Vox-Profile provides
holistic and multi-dimensional profiles that reflect both static speaker traits
(e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech
flow). This benchmark is grounded in speech science and linguistics, developed
with domain experts to accurately index speaker and speech characteristics. We
report benchmark experiments using over 15 publicly available speech datasets
and several widely used speech foundation models that target various static and
dynamic speaker and speech properties. In addition to benchmark experiments, we
showcase several downstream applications supported by Vox-Profile. First, we
show that Vox-Profile can augment existing speech recognition datasets to
analyze ASR performance variability. Vox-Profile is also used as a tool to
evaluate the performance of speech generation systems. Finally, we assess the
quality of our automated profiles through comparison with human evaluation and
show convergent validity. Vox-Profile is publicly available at:
https://github.com/tiantiaf0627/vox-profile-release.Summary
AI-Generated Summary