Vox-Profile: Бенчмарк речевой фундаментальной модели для характеристики разнообразных характеристик говорящего и речи
Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits
May 20, 2025
Авторы: Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan
cs.AI
Аннотация
Мы представляем Vox-Profile — всеобъемлющий бенчмарк для характеристики богатых признаков говорящего и речи с использованием базовых моделей обработки речи. В отличие от существующих работ, которые сосредоточены на одном аспекте характеристик говорящего, Vox-Profile предоставляет целостные и многомерные профили, отражающие как статические признаки говорящего (например, возраст, пол, акцент), так и динамические свойства речи (например, эмоции, темп речи). Этот бенчмарк основан на науке о речи и лингвистике, разработан при участии экспертов в данной области для точного индексирования характеристик говорящего и речи. Мы проводим эксперименты с использованием более чем 15 общедоступных наборов речевых данных и нескольких широко используемых базовых моделей обработки речи, которые охватывают различные статические и динамические свойства говорящего и речи. Помимо бенчмарк-экспериментов, мы демонстрируем несколько прикладных задач, поддерживаемых Vox-Profile. Во-первых, мы показываем, что Vox-Profile может дополнять существующие наборы данных для распознавания речи, чтобы анализировать вариативность производительности ASR. Vox-Profile также используется как инструмент для оценки производительности систем генерации речи. Наконец, мы оцениваем качество наших автоматизированных профилей путем сравнения с экспертной оценкой и демонстрируем конвергентную валидность. Vox-Profile доступен публично по адресу: https://github.com/tiantiaf0627/vox-profile-release.
English
We introduce Vox-Profile, a comprehensive benchmark to characterize rich
speaker and speech traits using speech foundation models. Unlike existing works
that focus on a single dimension of speaker traits, Vox-Profile provides
holistic and multi-dimensional profiles that reflect both static speaker traits
(e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech
flow). This benchmark is grounded in speech science and linguistics, developed
with domain experts to accurately index speaker and speech characteristics. We
report benchmark experiments using over 15 publicly available speech datasets
and several widely used speech foundation models that target various static and
dynamic speaker and speech properties. In addition to benchmark experiments, we
showcase several downstream applications supported by Vox-Profile. First, we
show that Vox-Profile can augment existing speech recognition datasets to
analyze ASR performance variability. Vox-Profile is also used as a tool to
evaluate the performance of speech generation systems. Finally, we assess the
quality of our automated profiles through comparison with human evaluation and
show convergent validity. Vox-Profile is publicly available at:
https://github.com/tiantiaf0627/vox-profile-release.Summary
AI-Generated Summary