BatonVoice: Ein operationalistischer Rahmen zur Verbesserung der kontrollierbaren Sprachsynthese durch linguistische Intelligenz aus LLMs

papers.abstract

Der Aufstieg von Large Language Models (LLMs) gestaltet multimodale Modelle neu, wobei die Sprachsynthese eine herausragende Anwendung darstellt. Bestehende Ansätze nutzen jedoch oft die linguistische Intelligenz dieser Modelle nicht ausreichend und versäumen es typischerweise, ihre leistungsstarken Fähigkeiten zur Befolgung von Anweisungen zu nutzen. Diese Einschränkung behindert die Fähigkeit des Modells, Textanweisungen für eine kontrollierbare Text-to-Speech (TTS)-Generierung zu befolgen. Um dies zu adressieren, schlagen wir ein neues Paradigma vor, das vom „Operationalismus“ inspiriert ist und das Verständnis von Anweisungen von der Sprachgenerierung entkoppelt. Wir stellen BatonVoice vor, ein Framework, in dem ein LLM als „Dirigent“ fungiert, der Benutzeranweisungen versteht und einen textuellen „Plan“ erstellt – explizite vokale Merkmale (z. B. Tonhöhe, Energie). Ein separates TTS-Modell, das „Orchester“, generiert dann die Sprache aus diesen Merkmalen. Um diese Komponente zu realisieren, entwickeln wir BatonTTS, ein TTS-Modell, das speziell für diese Aufgabe trainiert wurde. Unsere Experimente zeigen, dass BatonVoice eine starke Leistung in der kontrollierbaren und emotionalen Sprachsynthese erzielt und dabei starke Open- und Closed-Source-Baselines übertrifft. Besonders bemerkenswert ist, dass unser Ansatz eine bemerkenswerte Zero-Shot-Übertragung auf andere Sprachen ermöglicht, indem er die Fähigkeiten zur Merkmalskontrolle präzise auf Sprachen anwendet, die während des Post-Trainings nicht gesehen wurden. Dies zeigt, dass die Objektivierung von Sprache in textuelle vokale Merkmale die linguistische Intelligenz von LLMs effektiver freisetzen kann.

English

The rise of Large Language Models (LLMs) is reshaping multimodel models, with speech synthesis being a prominent application. However, existing approaches often underutilize the linguistic intelligence of these models, typically failing to leverage their powerful instruction-following capabilities. This limitation hinders the model's ability to follow text instructions for controllable Text-to-Speech~(TTS). To address this, we propose a new paradigm inspired by ``operationalism'' that decouples instruction understanding from speech generation. We introduce BatonVoice, a framework where an LLM acts as a ``conductor'', understanding user instructions and generating a textual ``plan'' -- explicit vocal features (e.g., pitch, energy). A separate TTS model, the ``orchestra'', then generates the speech from these features. To realize this component, we develop BatonTTS, a TTS model trained specifically for this task. Our experiments demonstrate that BatonVoice achieves strong performance in controllable and emotional speech synthesis, outperforming strong open- and closed-source baselines. Notably, our approach enables remarkable zero-shot cross-lingual generalization, accurately applying feature control abilities to languages unseen during post-training. This demonstrates that objectifying speech into textual vocal features can more effectively unlock the linguistic intelligence of LLMs.

BatonVoice: Ein operationalistischer Rahmen zur Verbesserung der kontrollierbaren Sprachsynthese durch linguistische Intelligenz aus LLMs

BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs

papers.abstract

Support