ChatPaper.aiChatPaper

Vox-Profile: Бенчмарк речевой фундаментальной модели для характеристики разнообразных характеристик говорящего и речи

Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits

May 20, 2025
Авторы: Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan
cs.AI

Аннотация

Мы представляем Vox-Profile — всеобъемлющий бенчмарк для характеристики богатых признаков говорящего и речи с использованием базовых моделей обработки речи. В отличие от существующих работ, которые сосредоточены на одном аспекте характеристик говорящего, Vox-Profile предоставляет целостные и многомерные профили, отражающие как статические признаки говорящего (например, возраст, пол, акцент), так и динамические свойства речи (например, эмоции, темп речи). Этот бенчмарк основан на науке о речи и лингвистике, разработан при участии экспертов в данной области для точного индексирования характеристик говорящего и речи. Мы проводим эксперименты с использованием более чем 15 общедоступных наборов речевых данных и нескольких широко используемых базовых моделей обработки речи, которые охватывают различные статические и динамические свойства говорящего и речи. Помимо бенчмарк-экспериментов, мы демонстрируем несколько прикладных задач, поддерживаемых Vox-Profile. Во-первых, мы показываем, что Vox-Profile может дополнять существующие наборы данных для распознавания речи, чтобы анализировать вариативность производительности ASR. Vox-Profile также используется как инструмент для оценки производительности систем генерации речи. Наконец, мы оцениваем качество наших автоматизированных профилей путем сравнения с экспертной оценкой и демонстрируем конвергентную валидность. Vox-Profile доступен публично по адресу: https://github.com/tiantiaf0627/vox-profile-release.
English
We introduce Vox-Profile, a comprehensive benchmark to characterize rich speaker and speech traits using speech foundation models. Unlike existing works that focus on a single dimension of speaker traits, Vox-Profile provides holistic and multi-dimensional profiles that reflect both static speaker traits (e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech flow). This benchmark is grounded in speech science and linguistics, developed with domain experts to accurately index speaker and speech characteristics. We report benchmark experiments using over 15 publicly available speech datasets and several widely used speech foundation models that target various static and dynamic speaker and speech properties. In addition to benchmark experiments, we showcase several downstream applications supported by Vox-Profile. First, we show that Vox-Profile can augment existing speech recognition datasets to analyze ASR performance variability. Vox-Profile is also used as a tool to evaluate the performance of speech generation systems. Finally, we assess the quality of our automated profiles through comparison with human evaluation and show convergent validity. Vox-Profile is publicly available at: https://github.com/tiantiaf0627/vox-profile-release.

Summary

AI-Generated Summary

PDF72May 21, 2025