BatonVoice: Ein operationalistischer Rahmen zur Verbesserung der kontrollierbaren Sprachsynthese durch linguistische Intelligenz aus LLMs
BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs
September 30, 2025
papers.authors: Yue Wang, Ruotian Ma, Xingyu Chen, Zhengliang Shi, Wanshun Chen, Huang Liu, Jiadi Yao, Qu Yang, Qingxuan Jiang, Fanghua Ye, Juntao Li, Min Zhang, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
papers.abstract
Der Aufstieg von Large Language Models (LLMs) gestaltet multimodale Modelle neu, wobei die Sprachsynthese eine herausragende Anwendung darstellt. Bestehende Ansätze nutzen jedoch oft die linguistische Intelligenz dieser Modelle nicht ausreichend und versäumen es typischerweise, ihre leistungsstarken Fähigkeiten zur Befolgung von Anweisungen zu nutzen. Diese Einschränkung behindert die Fähigkeit des Modells, Textanweisungen für eine kontrollierbare Text-to-Speech (TTS)-Generierung zu befolgen. Um dies zu adressieren, schlagen wir ein neues Paradigma vor, das vom „Operationalismus“ inspiriert ist und das Verständnis von Anweisungen von der Sprachgenerierung entkoppelt. Wir stellen BatonVoice vor, ein Framework, in dem ein LLM als „Dirigent“ fungiert, der Benutzeranweisungen versteht und einen textuellen „Plan“ erstellt – explizite vokale Merkmale (z. B. Tonhöhe, Energie). Ein separates TTS-Modell, das „Orchester“, generiert dann die Sprache aus diesen Merkmalen. Um diese Komponente zu realisieren, entwickeln wir BatonTTS, ein TTS-Modell, das speziell für diese Aufgabe trainiert wurde. Unsere Experimente zeigen, dass BatonVoice eine starke Leistung in der kontrollierbaren und emotionalen Sprachsynthese erzielt und dabei starke Open- und Closed-Source-Baselines übertrifft. Besonders bemerkenswert ist, dass unser Ansatz eine bemerkenswerte Zero-Shot-Übertragung auf andere Sprachen ermöglicht, indem er die Fähigkeiten zur Merkmalskontrolle präzise auf Sprachen anwendet, die während des Post-Trainings nicht gesehen wurden. Dies zeigt, dass die Objektivierung von Sprache in textuelle vokale Merkmale die linguistische Intelligenz von LLMs effektiver freisetzen kann.
English
The rise of Large Language Models (LLMs) is reshaping multimodel models, with
speech synthesis being a prominent application. However, existing approaches
often underutilize the linguistic intelligence of these models, typically
failing to leverage their powerful instruction-following capabilities. This
limitation hinders the model's ability to follow text instructions for
controllable Text-to-Speech~(TTS). To address this, we propose a new paradigm
inspired by ``operationalism'' that decouples instruction understanding from
speech generation. We introduce BatonVoice, a framework where an LLM acts as a
``conductor'', understanding user instructions and generating a textual
``plan'' -- explicit vocal features (e.g., pitch, energy). A separate TTS
model, the ``orchestra'', then generates the speech from these features. To
realize this component, we develop BatonTTS, a TTS model trained specifically
for this task. Our experiments demonstrate that BatonVoice achieves strong
performance in controllable and emotional speech synthesis, outperforming
strong open- and closed-source baselines. Notably, our approach enables
remarkable zero-shot cross-lingual generalization, accurately applying feature
control abilities to languages unseen during post-training. This demonstrates
that objectifying speech into textual vocal features can more effectively
unlock the linguistic intelligence of LLMs.