BatonVoice: Un Framework Operazionalista per Potenziare la Sintesi Vocale Controllabile con Intelligenza Linguistica da LLM
BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs
September 30, 2025
Autori: Yue Wang, Ruotian Ma, Xingyu Chen, Zhengliang Shi, Wanshun Chen, Huang Liu, Jiadi Yao, Qu Yang, Qingxuan Jiang, Fanghua Ye, Juntao Li, Min Zhang, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
Abstract
L'ascesa dei Large Language Models (LLM) sta ridefinendo i modelli multimodali, con la sintesi vocale che rappresenta un'applicazione di rilievo. Tuttavia, gli approcci esistenti spesso non sfruttano appieno l'intelligenza linguistica di questi modelli, tipicamente trascurando le loro potenti capacità di seguire istruzioni. Questa limitazione ostacola la capacità del modello di seguire istruzioni testuali per un Text-to-Speech (TTS) controllabile. Per affrontare questo problema, proponiamo un nuovo paradigma ispirato all'“operazionalismo” che separa la comprensione delle istruzioni dalla generazione vocale. Introduciamo BatonVoice, un framework in cui un LLM agisce come un “direttore d'orchestra”, comprendendo le istruzioni dell'utente e generando un “piano” testuale – caratteristiche vocali esplicite (ad esempio, tono, energia). Un modello TTS separato, l'“orchestra”, genera poi il parlato a partire da queste caratteristiche. Per realizzare questo componente, sviluppiamo BatonTTS, un modello TTS addestrato specificamente per questo compito. I nostri esperimenti dimostrano che BatonVoice ottiene prestazioni solide nella sintesi vocale controllata ed emotiva, superando baseline open-source e closed-source di alto livello. In particolare, il nostro approccio consente una notevole generalizzazione cross-linguale zero-shot, applicando con precisione le capacità di controllo delle caratteristiche a lingue non viste durante il post-addestramento. Ciò dimostra che oggettivare il parlato in caratteristiche vocali testuali può sbloccare in modo più efficace l'intelligenza linguistica degli LLM.
English
The rise of Large Language Models (LLMs) is reshaping multimodel models, with
speech synthesis being a prominent application. However, existing approaches
often underutilize the linguistic intelligence of these models, typically
failing to leverage their powerful instruction-following capabilities. This
limitation hinders the model's ability to follow text instructions for
controllable Text-to-Speech~(TTS). To address this, we propose a new paradigm
inspired by ``operationalism'' that decouples instruction understanding from
speech generation. We introduce BatonVoice, a framework where an LLM acts as a
``conductor'', understanding user instructions and generating a textual
``plan'' -- explicit vocal features (e.g., pitch, energy). A separate TTS
model, the ``orchestra'', then generates the speech from these features. To
realize this component, we develop BatonTTS, a TTS model trained specifically
for this task. Our experiments demonstrate that BatonVoice achieves strong
performance in controllable and emotional speech synthesis, outperforming
strong open- and closed-source baselines. Notably, our approach enables
remarkable zero-shot cross-lingual generalization, accurately applying feature
control abilities to languages unseen during post-training. This demonstrates
that objectifying speech into textual vocal features can more effectively
unlock the linguistic intelligence of LLMs.