VStyle: Un punto de referencia para la adaptación de estilos de voz mediante instrucciones habladas
VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions
September 9, 2025
Autores: Jun Zhan, Mingyang Han, Yuxuan Xie, Chen Wang, Dong Zhang, Kexin Huang, Haoxiang Shi, DongXiao Wang, Tengtao Song, Qinyuan Cheng, Shimin Li, Jun Song, Xipeng Qiu, Bo Zheng
cs.AI
Resumen
Los modelos de lenguaje hablado (SLMs, por sus siglas en inglés) han surgido como un paradigma unificado para la comprensión y generación del habla, permitiendo una interacción natural entre humanos y máquinas. Sin embargo, aunque la mayoría de los avances se han centrado en la precisión semántica y el seguimiento de instrucciones, la capacidad de los SLMs para adaptar su estilo de habla basándose en instrucciones verbales ha recibido poca atención. Introducimos la Adaptación de Estilo de Voz (VSA, por sus siglas en inglés), una nueva tarea que examina si los SLMs pueden modificar su estilo de habla, como el timbre, la prosodia o la personalidad, siguiendo comandos en lenguaje natural hablado. Para estudiar esta tarea, presentamos VStyle, un benchmark bilingüe (chino e inglés) que cubre cuatro categorías de generación de habla: atributos acústicos, instrucciones en lenguaje natural, interpretación de roles y empatía implícita. También introducimos el marco Large Audio Language Model as a Judge (LALM as a Judge), que evalúa progresivamente las salidas en términos de fidelidad textual, adherencia al estilo y naturalidad, asegurando una evaluación reproducible y objetiva. Los experimentos en sistemas comerciales y SLMs de código abierto demuestran que los modelos actuales enfrentan limitaciones claras en la adaptación controlable de estilos, destacando tanto la novedad como el desafío de esta tarea. Al publicar VStyle y su kit de herramientas de evaluación, nuestro objetivo es proporcionar a la comunidad una base para avanzar en la interacción hablada centrada en el ser humano. El conjunto de datos y el código están disponibles públicamente en https://junzhan2000.github.io/VStyle.github.io/{página principal del proyecto}.
English
Spoken language models (SLMs) have emerged as a unified paradigm for speech
understanding and generation, enabling natural human machine interaction.
However, while most progress has focused on semantic accuracy and instruction
following, the ability of SLMs to adapt their speaking style based on spoken
instructions has received limited attention. We introduce Voice Style
Adaptation (VSA), a new task that examines whether SLMs can modify their
speaking style, such as timbre, prosody, or persona following natural language
spoken commands. To study this task, we present VStyle, a bilingual (Chinese &
English) benchmark covering four categories of speech generation: acoustic
attributes, natural language instruction, role play, and implicit empathy. We
also introduce the Large Audio Language Model as a Judge (LALM as a Judge)
framework, which progressively evaluates outputs along textual faithfulness,
style adherence, and naturalness, ensuring reproducible and objective
assessment. Experiments on commercial systems and open source SLMs demonstrate
that current models face clear limitations in controllable style adaptation,
highlighting both the novelty and challenge of this task. By releasing VStyle
and its evaluation toolkit, we aim to provide the community with a foundation
for advancing human centered spoken interaction. The dataset and code are
publicly available at
https://junzhan2000.github.io/VStyle.github.io/{project's homepage}.