ChatPaper.aiChatPaper

Vox-Profile: Um Benchmark de Modelo de Fundamento de Fala para Caracterização de Diversos Traços de Locutores e Fala

Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits

May 20, 2025
Autores: Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan
cs.AI

Resumo

Apresentamos o Vox-Profile, um benchmark abrangente para caracterizar traços ricos de falantes e fala utilizando modelos de base de fala. Diferente de trabalhos existentes que se concentram em uma única dimensão dos traços do falante, o Vox-Profile oferece perfis holísticos e multidimensionais que refletem tanto traços estáticos do falante (por exemplo, idade, sexo, sotaque) quanto propriedades dinâmicas da fala (por exemplo, emoção, fluência da fala). Este benchmark é fundamentado na ciência da fala e na linguística, desenvolvido com especialistas da área para indexar com precisão as características do falante e da fala. Relatamos experimentos de benchmark utilizando mais de 15 conjuntos de dados de fala publicamente disponíveis e vários modelos de base de fala amplamente utilizados que visam diversas propriedades estáticas e dinâmicas do falante e da fala. Além dos experimentos de benchmark, demonstramos várias aplicações subsequentes suportadas pelo Vox-Profile. Primeiro, mostramos que o Vox-Profile pode ampliar conjuntos de dados existentes de reconhecimento de fala para analisar a variabilidade de desempenho do ASR. O Vox-Profile também é utilizado como uma ferramenta para avaliar o desempenho de sistemas de geração de fala. Por fim, avaliamos a qualidade de nossos perfis automatizados por meio da comparação com avaliação humana e mostramos validade convergente. O Vox-Profile está publicamente disponível em: https://github.com/tiantiaf0627/vox-profile-release.
English
We introduce Vox-Profile, a comprehensive benchmark to characterize rich speaker and speech traits using speech foundation models. Unlike existing works that focus on a single dimension of speaker traits, Vox-Profile provides holistic and multi-dimensional profiles that reflect both static speaker traits (e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech flow). This benchmark is grounded in speech science and linguistics, developed with domain experts to accurately index speaker and speech characteristics. We report benchmark experiments using over 15 publicly available speech datasets and several widely used speech foundation models that target various static and dynamic speaker and speech properties. In addition to benchmark experiments, we showcase several downstream applications supported by Vox-Profile. First, we show that Vox-Profile can augment existing speech recognition datasets to analyze ASR performance variability. Vox-Profile is also used as a tool to evaluate the performance of speech generation systems. Finally, we assess the quality of our automated profiles through comparison with human evaluation and show convergent validity. Vox-Profile is publicly available at: https://github.com/tiantiaf0627/vox-profile-release.
PDF92December 16, 2025