ChatPaper.aiChatPaper

VStyle: Ein Benchmark für die Anpassung von Sprachstilen mithilfe gesprochener Anweisungen

VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

September 9, 2025
papers.authors: Jun Zhan, Mingyang Han, Yuxuan Xie, Chen Wang, Dong Zhang, Kexin Huang, Haoxiang Shi, DongXiao Wang, Tengtao Song, Qinyuan Cheng, Shimin Li, Jun Song, Xipeng Qiu, Bo Zheng
cs.AI

papers.abstract

Gesprochene Sprachmodelle (SLMs) haben sich als einheitliches Paradigma für das Sprachverständnis und die Sprachgenerierung etabliert, wodurch eine natürliche Mensch-Maschine-Interaktion ermöglicht wird. Während sich die meisten Fortschritte jedoch auf semantische Genauigkeit und die Befolgung von Anweisungen konzentriert haben, wurde die Fähigkeit von SLMs, ihren Sprechstil basierend auf gesprochenen Anweisungen anzupassen, bisher nur begrenzt untersucht. Wir stellen Voice Style Adaptation (VSA) vor, eine neue Aufgabe, die untersucht, ob SLMs ihren Sprechstil, wie Timbre, Prosodie oder Persona, basierend auf natürlichen gesprochenen Befehlen anpassen können. Um diese Aufgabe zu untersuchen, präsentieren wir VStyle, einen zweisprachigen (Chinesisch & Englisch) Benchmark, der vier Kategorien der Sprachgenerierung abdeckt: akustische Attribute, natürliche Sprachbefehle, Rollenspiel und implizite Empathie. Wir führen auch das Large Audio Language Model as a Judge (LALM as a Judge) Framework ein, das die Ausgaben progressiv entlang textlicher Treue, Stilbefolgung und Natürlichkeit bewertet und so eine reproduzierbare und objektive Beurteilung sicherstellt. Experimente mit kommerziellen Systemen und Open-Source-SLMs zeigen, dass aktuelle Modelle klare Grenzen bei der kontrollierbaren Stilanpassung aufweisen, was sowohl die Neuartigkeit als auch die Herausforderung dieser Aufgabe unterstreicht. Durch die Veröffentlichung von VStyle und seinem Bewertungstoolkit möchten wir der Community eine Grundlage für die Weiterentwicklung menschzentrierter gesprochener Interaktion bieten. Der Datensatz und der Code sind öffentlich verfügbar unter https://junzhan2000.github.io/VStyle.github.io/{Projekt-Homepage}.
English
Spoken language models (SLMs) have emerged as a unified paradigm for speech understanding and generation, enabling natural human machine interaction. However, while most progress has focused on semantic accuracy and instruction following, the ability of SLMs to adapt their speaking style based on spoken instructions has received limited attention. We introduce Voice Style Adaptation (VSA), a new task that examines whether SLMs can modify their speaking style, such as timbre, prosody, or persona following natural language spoken commands. To study this task, we present VStyle, a bilingual (Chinese & English) benchmark covering four categories of speech generation: acoustic attributes, natural language instruction, role play, and implicit empathy. We also introduce the Large Audio Language Model as a Judge (LALM as a Judge) framework, which progressively evaluates outputs along textual faithfulness, style adherence, and naturalness, ensuring reproducible and objective assessment. Experiments on commercial systems and open source SLMs demonstrate that current models face clear limitations in controllable style adaptation, highlighting both the novelty and challenge of this task. By releasing VStyle and its evaluation toolkit, we aim to provide the community with a foundation for advancing human centered spoken interaction. The dataset and code are publicly available at https://junzhan2000.github.io/VStyle.github.io/{project's homepage}.
PDF102September 15, 2025