VStyle: Un Benchmark per l'Adattamento dello Stile Vocale con Istruzioni Parlate

Abstract

I modelli linguistici parlati (SLM) sono emersi come un paradigma unificato per la comprensione e la generazione del parlato, abilitando un'interazione uomo-macchina naturale. Tuttavia, sebbene la maggior parte dei progressi si sia concentrata sull'accuratezza semantica e sul seguire istruzioni, la capacità degli SLM di adattare il proprio stile di parlato in base a istruzioni vocali ha ricevuto un'attenzione limitata. Introduciamo l'Adattamento dello Stile Vocale (VSA), un nuovo compito che esamina se gli SLM possono modificare il proprio stile di parlato, come timbro, prosodia o persona, seguendo comandi vocali in linguaggio naturale. Per studiare questo compito, presentiamo VStyle, un benchmark bilingue (cinese e inglese) che copre quattro categorie di generazione del parlato: attributi acustici, istruzioni in linguaggio naturale, interpretazione di ruoli ed empatia implicita. Introduciamo inoltre il framework Large Audio Language Model as a Judge (LALM as a Judge), che valuta progressivamente gli output in termini di fedeltà testuale, aderenza allo stile e naturalezza, garantendo una valutazione riproducibile e obiettiva. Esperimenti su sistemi commerciali e SLM open source dimostrano che i modelli attuali presentano chiare limitazioni nell'adattamento controllabile dello stile, evidenziando sia la novità che la sfida di questo compito. Rilasciando VStyle e il suo toolkit di valutazione, miriamo a fornire alla comunità una base per avanzare nell'interazione parlata centrata sull'uomo. Il dataset e il codice sono pubblicamente disponibili su https://junzhan2000.github.io/VStyle.github.io/{pagina principale del progetto}.

English

Spoken language models (SLMs) have emerged as a unified paradigm for speech understanding and generation, enabling natural human machine interaction. However, while most progress has focused on semantic accuracy and instruction following, the ability of SLMs to adapt their speaking style based on spoken instructions has received limited attention. We introduce Voice Style Adaptation (VSA), a new task that examines whether SLMs can modify their speaking style, such as timbre, prosody, or persona following natural language spoken commands. To study this task, we present VStyle, a bilingual (Chinese & English) benchmark covering four categories of speech generation: acoustic attributes, natural language instruction, role play, and implicit empathy. We also introduce the Large Audio Language Model as a Judge (LALM as a Judge) framework, which progressively evaluates outputs along textual faithfulness, style adherence, and naturalness, ensuring reproducible and objective assessment. Experiments on commercial systems and open source SLMs demonstrate that current models face clear limitations in controllable style adaptation, highlighting both the novelty and challenge of this task. By releasing VStyle and its evaluation toolkit, we aim to provide the community with a foundation for advancing human centered spoken interaction. The dataset and code are publicly available at https://junzhan2000.github.io/VStyle.github.io/{project's homepage}.

VStyle: Un Benchmark per l'Adattamento dello Stile Vocale con Istruzioni Parlate

VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

Abstract

Support