VStyle:音声指示による音声スタイル適応のためのベンチマーク
VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions
September 9, 2025
著者: Jun Zhan, Mingyang Han, Yuxuan Xie, Chen Wang, Dong Zhang, Kexin Huang, Haoxiang Shi, DongXiao Wang, Tengtao Song, Qinyuan Cheng, Shimin Li, Jun Song, Xipeng Qiu, Bo Zheng
cs.AI
要旨
音声言語モデル(SLM)は、自然な人間と機械のインタラクションを可能にする、音声理解と生成の統一されたパラダイムとして登場しました。しかし、これまでの進歩の多くは意味的精度や指示の追従に焦点が当てられており、SLMが音声指示に基づいて話し方を適応させる能力については限定的な注目しか集めていません。本研究では、音声スタイル適応(Voice Style Adaptation, VSA)という新しいタスクを導入し、SLMが自然言語の音声コマンドに従って音色、プロソディ、またはペルソナなどの話し方を変更できるかどうかを検証します。このタスクを研究するために、音声生成の4つのカテゴリ(音響属性、自然言語指示、役割演劇、暗黙の共感)をカバーする二言語(中国語と英語)ベンチマークであるVStyleを提示します。また、Large Audio Language Model as a Judge(LALM as a Judge)フレームワークを導入し、テキストの忠実度、スタイルの遵守度、自然さに沿って出力を段階的に評価し、再現可能で客観的な評価を確保します。商用システムとオープンソースのSLMを用いた実験により、現在のモデルが制御可能なスタイル適応において明確な限界に直面していることが示され、このタスクの新規性と課題が浮き彫りになりました。VStyleとその評価ツールキットを公開することで、人間中心の音声インタラクションを進めるための基盤をコミュニティに提供することを目指しています。データセットとコードはhttps://junzhan2000.github.io/VStyle.github.io/{プロジェクトのホームページ}で公開されています。
English
Spoken language models (SLMs) have emerged as a unified paradigm for speech
understanding and generation, enabling natural human machine interaction.
However, while most progress has focused on semantic accuracy and instruction
following, the ability of SLMs to adapt their speaking style based on spoken
instructions has received limited attention. We introduce Voice Style
Adaptation (VSA), a new task that examines whether SLMs can modify their
speaking style, such as timbre, prosody, or persona following natural language
spoken commands. To study this task, we present VStyle, a bilingual (Chinese &
English) benchmark covering four categories of speech generation: acoustic
attributes, natural language instruction, role play, and implicit empathy. We
also introduce the Large Audio Language Model as a Judge (LALM as a Judge)
framework, which progressively evaluates outputs along textual faithfulness,
style adherence, and naturalness, ensuring reproducible and objective
assessment. Experiments on commercial systems and open source SLMs demonstrate
that current models face clear limitations in controllable style adaptation,
highlighting both the novelty and challenge of this task. By releasing VStyle
and its evaluation toolkit, we aim to provide the community with a foundation
for advancing human centered spoken interaction. The dataset and code are
publicly available at
https://junzhan2000.github.io/VStyle.github.io/{project's homepage}.