ChatPaper.aiChatPaper

VStyle: Een Benchmark voor Stemstijl-aanpassing met Gesproken Instructies

VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

September 9, 2025
Auteurs: Jun Zhan, Mingyang Han, Yuxuan Xie, Chen Wang, Dong Zhang, Kexin Huang, Haoxiang Shi, DongXiao Wang, Tengtao Song, Qinyuan Cheng, Shimin Li, Jun Song, Xipeng Qiu, Bo Zheng
cs.AI

Samenvatting

Gesproken taalmodellen (SLMs) zijn naar voren gekomen als een uniform paradigma voor spraakbegrip en -generatie, waardoor natuurlijke mens-machine-interactie mogelijk wordt gemaakt. Hoewel de meeste vooruitgang zich heeft gericht op semantische nauwkeurigheid en het volgen van instructies, heeft het vermogen van SLMs om hun spreekstijl aan te passen op basis van gesproken instructies beperkte aandacht gekregen. Wij introduceren Voice Style Adaptation (VSA), een nieuwe taak die onderzoekt of SLMs hun spreekstijl, zoals timbre, prosodie of persona, kunnen aanpassen op basis van natuurlijke gesproken taalcommando's. Om deze taak te bestuderen, presenteren we VStyle, een tweetalige (Chinees & Engels) benchmark die vier categorieën van spraakgeneratie omvat: akoestische attributen, natuurlijke taal-instructies, rollenspel en impliciete empathie. We introduceren ook het Large Audio Language Model as a Judge (LALM as a Judge) framework, dat outputs progressief evalueert op tekstuele trouw, stijltrouw en natuurlijkheid, waardoor reproduceerbare en objectieve beoordeling wordt gegarandeerd. Experimenten met commerciële systemen en open-source SLMs tonen aan dat huidige modellen duidelijke beperkingen hebben in controleerbare stijlaanpassing, wat zowel de nieuwigheid als de uitdaging van deze taak benadrukt. Door VStyle en zijn evaluatietoolkit vrij te geven, streven we ernaar de gemeenschap een basis te bieden voor het bevorderen van mensgerichte gesproken interactie. De dataset en code zijn openbaar beschikbaar op https://junzhan2000.github.io/VStyle.github.io/{project's homepage}.
English
Spoken language models (SLMs) have emerged as a unified paradigm for speech understanding and generation, enabling natural human machine interaction. However, while most progress has focused on semantic accuracy and instruction following, the ability of SLMs to adapt their speaking style based on spoken instructions has received limited attention. We introduce Voice Style Adaptation (VSA), a new task that examines whether SLMs can modify their speaking style, such as timbre, prosody, or persona following natural language spoken commands. To study this task, we present VStyle, a bilingual (Chinese & English) benchmark covering four categories of speech generation: acoustic attributes, natural language instruction, role play, and implicit empathy. We also introduce the Large Audio Language Model as a Judge (LALM as a Judge) framework, which progressively evaluates outputs along textual faithfulness, style adherence, and naturalness, ensuring reproducible and objective assessment. Experiments on commercial systems and open source SLMs demonstrate that current models face clear limitations in controllable style adaptation, highlighting both the novelty and challenge of this task. By releasing VStyle and its evaluation toolkit, we aim to provide the community with a foundation for advancing human centered spoken interaction. The dataset and code are publicly available at https://junzhan2000.github.io/VStyle.github.io/{project's homepage}.
PDF102September 15, 2025