BatonVoice : Un cadre opérationnaliste pour améliorer la synthèse vocale contrôlée grâce à l'intelligence linguistique des LLMs
BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs
September 30, 2025
papers.authors: Yue Wang, Ruotian Ma, Xingyu Chen, Zhengliang Shi, Wanshun Chen, Huang Liu, Jiadi Yao, Qu Yang, Qingxuan Jiang, Fanghua Ye, Juntao Li, Min Zhang, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
papers.abstract
L'essor des modèles de langage de grande taille (LLMs) est en train de redéfinir les modèles multimodaux, avec la synthèse vocale comme application majeure. Cependant, les approches existantes sous-exploitent souvent l'intelligence linguistique de ces modèles, ne tirant généralement pas parti de leurs puissantes capacités à suivre des instructions. Cette limitation entrave la capacité du modèle à suivre des instructions textuelles pour une synthèse vocale contrôlable (Text-to-Speech, TTS). Pour remédier à cela, nous proposons un nouveau paradigme inspiré de l'« opérationnalisme », qui découple la compréhension des instructions de la génération de la parole. Nous introduisons BatonVoice, un cadre dans lequel un LLM agit comme un « chef d'orchestre », comprenant les instructions de l'utilisateur et générant un « plan » textuel — des caractéristiques vocales explicites (par exemple, la hauteur, l'énergie). Un modèle TTS distinct, l'« orchestre », génère ensuite la parole à partir de ces caractéristiques. Pour réaliser ce composant, nous développons BatonTTS, un modèle TTS spécifiquement entraîné pour cette tâche. Nos expériences montrent que BatonVoice obtient des performances solides en synthèse vocale contrôlable et émotionnelle, surpassant des références open-source et propriétaires robustes. Notamment, notre approche permet une généralisation cross-lingue remarquable en zero-shot, appliquant avec précision les capacités de contrôle des caractéristiques à des langues non vues lors de l'entraînement postérieur. Cela démontre que l'objectivation de la parole en caractéristiques vocales textuelles peut débloquer plus efficacement l'intelligence linguistique des LLMs.
English
The rise of Large Language Models (LLMs) is reshaping multimodel models, with
speech synthesis being a prominent application. However, existing approaches
often underutilize the linguistic intelligence of these models, typically
failing to leverage their powerful instruction-following capabilities. This
limitation hinders the model's ability to follow text instructions for
controllable Text-to-Speech~(TTS). To address this, we propose a new paradigm
inspired by ``operationalism'' that decouples instruction understanding from
speech generation. We introduce BatonVoice, a framework where an LLM acts as a
``conductor'', understanding user instructions and generating a textual
``plan'' -- explicit vocal features (e.g., pitch, energy). A separate TTS
model, the ``orchestra'', then generates the speech from these features. To
realize this component, we develop BatonTTS, a TTS model trained specifically
for this task. Our experiments demonstrate that BatonVoice achieves strong
performance in controllable and emotional speech synthesis, outperforming
strong open- and closed-source baselines. Notably, our approach enables
remarkable zero-shot cross-lingual generalization, accurately applying feature
control abilities to languages unseen during post-training. This demonstrates
that objectifying speech into textual vocal features can more effectively
unlock the linguistic intelligence of LLMs.