Vox-Profile: Um Benchmark de Modelo de Fundamento de Fala para Caracterização de Diversos Traços de Locutores e Fala
Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits
May 20, 2025
Autores: Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan
cs.AI
Resumo
Apresentamos o Vox-Profile, um benchmark abrangente para caracterizar traços ricos de falantes e fala utilizando modelos de base de fala. Diferente de trabalhos existentes que se concentram em uma única dimensão dos traços do falante, o Vox-Profile oferece perfis holísticos e multidimensionais que refletem tanto traços estáticos do falante (por exemplo, idade, sexo, sotaque) quanto propriedades dinâmicas da fala (por exemplo, emoção, fluência da fala). Este benchmark é fundamentado na ciência da fala e na linguística, desenvolvido com especialistas da área para indexar com precisão as características do falante e da fala. Relatamos experimentos de benchmark utilizando mais de 15 conjuntos de dados de fala publicamente disponíveis e vários modelos de base de fala amplamente utilizados que visam diversas propriedades estáticas e dinâmicas do falante e da fala. Além dos experimentos de benchmark, demonstramos várias aplicações subsequentes suportadas pelo Vox-Profile. Primeiro, mostramos que o Vox-Profile pode ampliar conjuntos de dados existentes de reconhecimento de fala para analisar a variabilidade de desempenho do ASR. O Vox-Profile também é utilizado como uma ferramenta para avaliar o desempenho de sistemas de geração de fala. Por fim, avaliamos a qualidade de nossos perfis automatizados por meio da comparação com avaliação humana e mostramos validade convergente. O Vox-Profile está publicamente disponível em: https://github.com/tiantiaf0627/vox-profile-release.
English
We introduce Vox-Profile, a comprehensive benchmark to characterize rich
speaker and speech traits using speech foundation models. Unlike existing works
that focus on a single dimension of speaker traits, Vox-Profile provides
holistic and multi-dimensional profiles that reflect both static speaker traits
(e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech
flow). This benchmark is grounded in speech science and linguistics, developed
with domain experts to accurately index speaker and speech characteristics. We
report benchmark experiments using over 15 publicly available speech datasets
and several widely used speech foundation models that target various static and
dynamic speaker and speech properties. In addition to benchmark experiments, we
showcase several downstream applications supported by Vox-Profile. First, we
show that Vox-Profile can augment existing speech recognition datasets to
analyze ASR performance variability. Vox-Profile is also used as a tool to
evaluate the performance of speech generation systems. Finally, we assess the
quality of our automated profiles through comparison with human evaluation and
show convergent validity. Vox-Profile is publicly available at:
https://github.com/tiantiaf0627/vox-profile-release.