Vox-Profile: 다양한 화자 및 음성 특성 분석을 위한 음성 기반 모델 벤치마크
Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits
May 20, 2025
저자: Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan
cs.AI
초록
우리는 음성 기반 모델을 활용하여 다양한 화자 및 음성 특성을 포괄적으로 평가할 수 있는 종합 벤치마크인 Vox-Profile을 소개한다. 기존 연구들이 화자 특성의 단일 차원에 초점을 맞추는 것과 달리, Vox-Profile은 정적 화자 특성(예: 연령, 성별, 악센트)과 동적 음성 특성(예: 감정, 음성 흐름)을 모두 반영하는 전체적이고 다차원적인 프로파일을 제공한다. 이 벤치마크는 음성 과학 및 언어학에 기반을 두고 있으며, 도메인 전문가들과 협력하여 화자 및 음성 특성을 정확하게 인덱싱할 수 있도록 개발되었다. 우리는 15개 이상의 공개 음성 데이터셋과 다양한 정적 및 동적 화자 및 음성 특성을 대상으로 하는 여러 널리 사용되는 음성 기반 모델을 사용한 벤치마크 실험 결과를 보고한다. 벤치마크 실험 외에도, Vox-Profile이 지원하는 여러 다운스트림 애플리케이션을 소개한다. 첫째, Vox-Profile이 기존 음성 인식 데이터셋을 보강하여 ASR 성능 변동성을 분석하는 데 활용될 수 있음을 보여준다. 또한, Vox-Profile은 음성 생성 시스템의 성능을 평가하는 도구로도 사용된다. 마지막으로, 자동화된 프로파일의 품질을 인간 평가와 비교하여 수렴 타당성을 확인한다. Vox-Profile은 https://github.com/tiantiaf0627/vox-profile-release에서 공개적으로 이용 가능하다.
English
We introduce Vox-Profile, a comprehensive benchmark to characterize rich
speaker and speech traits using speech foundation models. Unlike existing works
that focus on a single dimension of speaker traits, Vox-Profile provides
holistic and multi-dimensional profiles that reflect both static speaker traits
(e.g., age, sex, accent) and dynamic speech properties (e.g., emotion, speech
flow). This benchmark is grounded in speech science and linguistics, developed
with domain experts to accurately index speaker and speech characteristics. We
report benchmark experiments using over 15 publicly available speech datasets
and several widely used speech foundation models that target various static and
dynamic speaker and speech properties. In addition to benchmark experiments, we
showcase several downstream applications supported by Vox-Profile. First, we
show that Vox-Profile can augment existing speech recognition datasets to
analyze ASR performance variability. Vox-Profile is also used as a tool to
evaluate the performance of speech generation systems. Finally, we assess the
quality of our automated profiles through comparison with human evaluation and
show convergent validity. Vox-Profile is publicly available at:
https://github.com/tiantiaf0627/vox-profile-release.Summary
AI-Generated Summary