BatonVoice: Un Marco Operacionalista para Mejorar la Síntesis de Voz Controlable con Inteligencia Lingüística de Modelos de Lenguaje Grandes (LLMs)
BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs
September 30, 2025
Autores: Yue Wang, Ruotian Ma, Xingyu Chen, Zhengliang Shi, Wanshun Chen, Huang Liu, Jiadi Yao, Qu Yang, Qingxuan Jiang, Fanghua Ye, Juntao Li, Min Zhang, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
Resumen
El auge de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) está transformando los modelos multimodales, con la síntesis de voz como una aplicación destacada. Sin embargo, los enfoques existentes a menudo subutilizan la inteligencia lingüística de estos modelos, generalmente sin aprovechar sus potentes capacidades de seguimiento de instrucciones. Esta limitación dificulta la capacidad del modelo para seguir instrucciones textuales en la síntesis de voz controlable (Text-to-Speech, TTS). Para abordar este problema, proponemos un nuevo paradigma inspirado en el "operacionalismo" que desacopla la comprensión de instrucciones de la generación de voz. Presentamos BatonVoice, un marco en el que un LLM actúa como un "director", comprendiendo las instrucciones del usuario y generando un "plan" textual: características vocales explícitas (por ejemplo, tono, energía). Un modelo TTS separado, la "orquesta", genera entonces la voz a partir de estas características. Para implementar este componente, desarrollamos BatonTTS, un modelo TTS entrenado específicamente para esta tarea. Nuestros experimentos demuestran que BatonVoice logra un rendimiento sólido en la síntesis de voz controlable y emocional, superando a fuertes líneas base de código abierto y cerrado. Notablemente, nuestro enfoque permite una notable generalización cruzada multilingüe en modo cero-shot, aplicando con precisión las habilidades de control de características a idiomas no vistos durante el posentrenamiento. Esto demuestra que objetivar el habla en características vocales textuales puede desbloquear de manera más efectiva la inteligencia lingüística de los LLMs.
English
The rise of Large Language Models (LLMs) is reshaping multimodel models, with
speech synthesis being a prominent application. However, existing approaches
often underutilize the linguistic intelligence of these models, typically
failing to leverage their powerful instruction-following capabilities. This
limitation hinders the model's ability to follow text instructions for
controllable Text-to-Speech~(TTS). To address this, we propose a new paradigm
inspired by ``operationalism'' that decouples instruction understanding from
speech generation. We introduce BatonVoice, a framework where an LLM acts as a
``conductor'', understanding user instructions and generating a textual
``plan'' -- explicit vocal features (e.g., pitch, energy). A separate TTS
model, the ``orchestra'', then generates the speech from these features. To
realize this component, we develop BatonTTS, a TTS model trained specifically
for this task. Our experiments demonstrate that BatonVoice achieves strong
performance in controllable and emotional speech synthesis, outperforming
strong open- and closed-source baselines. Notably, our approach enables
remarkable zero-shot cross-lingual generalization, accurately applying feature
control abilities to languages unseen during post-training. This demonstrates
that objectifying speech into textual vocal features can more effectively
unlock the linguistic intelligence of LLMs.