VStyle: Un Benchmark per l'Adattamento dello Stile Vocale con Istruzioni Parlate
VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions
September 9, 2025
Autori: Jun Zhan, Mingyang Han, Yuxuan Xie, Chen Wang, Dong Zhang, Kexin Huang, Haoxiang Shi, DongXiao Wang, Tengtao Song, Qinyuan Cheng, Shimin Li, Jun Song, Xipeng Qiu, Bo Zheng
cs.AI
Abstract
I modelli linguistici parlati (SLM) sono emersi come un paradigma unificato per la comprensione e la generazione del parlato, abilitando un'interazione uomo-macchina naturale. Tuttavia, sebbene la maggior parte dei progressi si sia concentrata sull'accuratezza semantica e sul seguire istruzioni, la capacità degli SLM di adattare il proprio stile di parlato in base a istruzioni vocali ha ricevuto un'attenzione limitata. Introduciamo l'Adattamento dello Stile Vocale (VSA), un nuovo compito che esamina se gli SLM possono modificare il proprio stile di parlato, come timbro, prosodia o persona, seguendo comandi vocali in linguaggio naturale. Per studiare questo compito, presentiamo VStyle, un benchmark bilingue (cinese e inglese) che copre quattro categorie di generazione del parlato: attributi acustici, istruzioni in linguaggio naturale, interpretazione di ruoli ed empatia implicita. Introduciamo inoltre il framework Large Audio Language Model as a Judge (LALM as a Judge), che valuta progressivamente gli output in termini di fedeltà testuale, aderenza allo stile e naturalezza, garantendo una valutazione riproducibile e obiettiva. Esperimenti su sistemi commerciali e SLM open source dimostrano che i modelli attuali presentano chiare limitazioni nell'adattamento controllabile dello stile, evidenziando sia la novità che la sfida di questo compito. Rilasciando VStyle e il suo toolkit di valutazione, miriamo a fornire alla comunità una base per avanzare nell'interazione parlata centrata sull'uomo. Il dataset e il codice sono pubblicamente disponibili su https://junzhan2000.github.io/VStyle.github.io/{pagina principale del progetto}.
English
Spoken language models (SLMs) have emerged as a unified paradigm for speech
understanding and generation, enabling natural human machine interaction.
However, while most progress has focused on semantic accuracy and instruction
following, the ability of SLMs to adapt their speaking style based on spoken
instructions has received limited attention. We introduce Voice Style
Adaptation (VSA), a new task that examines whether SLMs can modify their
speaking style, such as timbre, prosody, or persona following natural language
spoken commands. To study this task, we present VStyle, a bilingual (Chinese &
English) benchmark covering four categories of speech generation: acoustic
attributes, natural language instruction, role play, and implicit empathy. We
also introduce the Large Audio Language Model as a Judge (LALM as a Judge)
framework, which progressively evaluates outputs along textual faithfulness,
style adherence, and naturalness, ensuring reproducible and objective
assessment. Experiments on commercial systems and open source SLMs demonstrate
that current models face clear limitations in controllable style adaptation,
highlighting both the novelty and challenge of this task. By releasing VStyle
and its evaluation toolkit, we aim to provide the community with a foundation
for advancing human centered spoken interaction. The dataset and code are
publicly available at
https://junzhan2000.github.io/VStyle.github.io/{project's homepage}.