VStyle: 음성 지시를 통한 음성 스타일 적응을 위한 벤치마크
VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions
September 9, 2025
저자: Jun Zhan, Mingyang Han, Yuxuan Xie, Chen Wang, Dong Zhang, Kexin Huang, Haoxiang Shi, DongXiao Wang, Tengtao Song, Qinyuan Cheng, Shimin Li, Jun Song, Xipeng Qiu, Bo Zheng
cs.AI
초록
음성 언어 모델(SLMs)은 자연스러운 인간-기계 상호작용을 가능하게 하며, 음성 이해와 생성을 통합한 패러다임으로 부상하고 있습니다. 그러나 대부분의 연구가 의미론적 정확성과 명령 수행에 초점을 맞추는 동안, SLMs가 음성 명령에 따라 말투를 조정하는 능력은 제한적으로만 주목받아 왔습니다. 본 연구에서는 음성 스타일 적응(Voice Style Adaptation, VSA)이라는 새로운 과제를 소개하며, 이는 SLMs가 음색, 운율, 또는 페르소나와 같은 말투를 자연어 음성 명령에 따라 수정할 수 있는지를 검토합니다. 이 과제를 연구하기 위해, 우리는 음성 생성의 네 가지 범주(음향 속성, 자연어 명령, 역할극, 암묵적 공감)를 아우르는 이중언어(중국어 & 영어) 벤치마크인 VStyle을 제시합니다. 또한, 텍스트 충실도, 스타일 준수도, 자연스러움을 점진적으로 평가하여 재현 가능하고 객관적인 평가를 보장하는 '대형 오디오 언어 모델을 판단자로 활용(LALM as a Judge)' 프레임워크를 소개합니다. 상용 시스템과 오픈소스 SLMs에 대한 실험 결과, 현재 모델들은 제어 가능한 스타일 적응에서 명확한 한계를 보이며, 이 과제의 참신함과 도전 과제를 강조합니다. VStyle과 평가 툴킷을 공개함으로써, 우리는 인간 중심의 음성 상호작용을 발전시키기 위한 기반을 커뮤니티에 제공하고자 합니다. 데이터셋과 코드는 https://junzhan2000.github.io/VStyle.github.io/{프로젝트 홈페이지}에서 공개적으로 이용 가능합니다.
English
Spoken language models (SLMs) have emerged as a unified paradigm for speech
understanding and generation, enabling natural human machine interaction.
However, while most progress has focused on semantic accuracy and instruction
following, the ability of SLMs to adapt their speaking style based on spoken
instructions has received limited attention. We introduce Voice Style
Adaptation (VSA), a new task that examines whether SLMs can modify their
speaking style, such as timbre, prosody, or persona following natural language
spoken commands. To study this task, we present VStyle, a bilingual (Chinese &
English) benchmark covering four categories of speech generation: acoustic
attributes, natural language instruction, role play, and implicit empathy. We
also introduce the Large Audio Language Model as a Judge (LALM as a Judge)
framework, which progressively evaluates outputs along textual faithfulness,
style adherence, and naturalness, ensuring reproducible and objective
assessment. Experiments on commercial systems and open source SLMs demonstrate
that current models face clear limitations in controllable style adaptation,
highlighting both the novelty and challenge of this task. By releasing VStyle
and its evaluation toolkit, we aim to provide the community with a foundation
for advancing human centered spoken interaction. The dataset and code are
publicly available at
https://junzhan2000.github.io/VStyle.github.io/{project's homepage}.