VStyle: Um Benchmark para Adaptação de Estilo de Voz com Instruções Faladas

Resumo

Modelos de linguagem falada (SLMs, do inglês Spoken Language Models) surgiram como um paradigma unificado para compreensão e geração de fala, permitindo interações homem-máquina naturais. No entanto, embora a maior parte dos avanços tenha se concentrado na precisão semântica e no seguimento de instruções, a capacidade dos SLMs de adaptar seu estilo de fala com base em instruções faladas recebeu atenção limitada. Introduzimos a Adaptação de Estilo de Voz (VSA, do inglês Voice Style Adaptation), uma nova tarefa que examina se os SLMs podem modificar seu estilo de fala, como timbre, prosódia ou persona, seguindo comandos de linguagem natural falados. Para estudar essa tarefa, apresentamos o VStyle, um benchmark bilíngue (chinês e inglês) que abrange quatro categorias de geração de fala: atributos acústicos, instruções de linguagem natural, interpretação de papéis e empatia implícita. Também introduzimos o framework Large Audio Language Model as a Judge (LALM as a Judge), que avalia progressivamente as saídas em termos de fidelidade textual, aderência ao estilo e naturalidade, garantindo uma avaliação reproduzível e objetiva. Experimentos com sistemas comerciais e SLMs de código aberto demonstram que os modelos atuais enfrentam limitações claras na adaptação controlável de estilo, destacando tanto a novidade quanto o desafio dessa tarefa. Ao disponibilizar o VStyle e seu kit de ferramentas de avaliação, nosso objetivo é fornecer à comunidade uma base para avançar na interação falada centrada no ser humano. O conjunto de dados e o código estão publicamente disponíveis em https://junzhan2000.github.io/VStyle.github.io/{página inicial do projeto}.

English

Spoken language models (SLMs) have emerged as a unified paradigm for speech understanding and generation, enabling natural human machine interaction. However, while most progress has focused on semantic accuracy and instruction following, the ability of SLMs to adapt their speaking style based on spoken instructions has received limited attention. We introduce Voice Style Adaptation (VSA), a new task that examines whether SLMs can modify their speaking style, such as timbre, prosody, or persona following natural language spoken commands. To study this task, we present VStyle, a bilingual (Chinese & English) benchmark covering four categories of speech generation: acoustic attributes, natural language instruction, role play, and implicit empathy. We also introduce the Large Audio Language Model as a Judge (LALM as a Judge) framework, which progressively evaluates outputs along textual faithfulness, style adherence, and naturalness, ensuring reproducible and objective assessment. Experiments on commercial systems and open source SLMs demonstrate that current models face clear limitations in controllable style adaptation, highlighting both the novelty and challenge of this task. By releasing VStyle and its evaluation toolkit, we aim to provide the community with a foundation for advancing human centered spoken interaction. The dataset and code are publicly available at https://junzhan2000.github.io/VStyle.github.io/{project's homepage}.

VStyle: Um Benchmark para Adaptação de Estilo de Voz com Instruções Faladas

VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

Resumo

Support