BatonVoice: Een operationeel kader voor het verbeteren van controleerbare spraaksynthese met linguïstische intelligentie van LLM's
BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs
September 30, 2025
Auteurs: Yue Wang, Ruotian Ma, Xingyu Chen, Zhengliang Shi, Wanshun Chen, Huang Liu, Jiadi Yao, Qu Yang, Qingxuan Jiang, Fanghua Ye, Juntao Li, Min Zhang, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
Samenvatting
De opkomst van Large Language Models (LLMs) is multimodale modellen aan het hervormen, waarbij spraaksynthese een prominente toepassing is. Bestaande benaderingen maken echter vaak onvoldoende gebruik van de linguïstische intelligentie van deze modellen, waarbij hun krachtige instructievolgcapaciteiten meestal niet worden benut. Deze beperking belemmert het vermogen van het model om tekstinstructies te volgen voor beheerbare Text-to-Speech (TTS). Om dit aan te pakken, stellen we een nieuw paradigma voor, geïnspireerd door "operationisme", dat het begrijpen van instructies loskoppelt van spraakgeneratie. We introduceren BatonVoice, een framework waarin een LLM fungeert als een "dirigent" die gebruikersinstructies begrijpt en een tekstueel "plan" genereert — expliciete vocale kenmerken (bijv. toonhoogte, energie). Een apart TTS-model, het "orkest", genereert vervolgens de spraak vanuit deze kenmerken. Om deze component te realiseren, ontwikkelen we BatonTTS, een TTS-model dat specifiek voor deze taak is getraind. Onze experimenten tonen aan dat BatonVoice sterke prestaties levert in beheerbare en emotionele spraaksynthese, en daarbij sterke open-source en closed-source baseline-modellen overtreft. Opmerkelijk is dat onze aanpak opmerkelijke zero-shot cross-linguale generalisatie mogelijk maakt, waarbij de kenmerkcontrole-vaardigheden nauwkeurig worden toegepast op talen die niet zijn gezien tijdens de post-training. Dit toont aan dat het objectiveren van spraak in tekstuele vocale kenmerken de linguïstische intelligentie van LLMs effectiever kan ontsluiten.
English
The rise of Large Language Models (LLMs) is reshaping multimodel models, with
speech synthesis being a prominent application. However, existing approaches
often underutilize the linguistic intelligence of these models, typically
failing to leverage their powerful instruction-following capabilities. This
limitation hinders the model's ability to follow text instructions for
controllable Text-to-Speech~(TTS). To address this, we propose a new paradigm
inspired by ``operationalism'' that decouples instruction understanding from
speech generation. We introduce BatonVoice, a framework where an LLM acts as a
``conductor'', understanding user instructions and generating a textual
``plan'' -- explicit vocal features (e.g., pitch, energy). A separate TTS
model, the ``orchestra'', then generates the speech from these features. To
realize this component, we develop BatonTTS, a TTS model trained specifically
for this task. Our experiments demonstrate that BatonVoice achieves strong
performance in controllable and emotional speech synthesis, outperforming
strong open- and closed-source baselines. Notably, our approach enables
remarkable zero-shot cross-lingual generalization, accurately applying feature
control abilities to languages unseen during post-training. This demonstrates
that objectifying speech into textual vocal features can more effectively
unlock the linguistic intelligence of LLMs.