ChatPaper.aiChatPaper

BatonVoice: Um Framework Operacionalista para Aprimorar a Síntese de Voz Controlável com Inteligência Linguística de LLMs

BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs

September 30, 2025
Autores: Yue Wang, Ruotian Ma, Xingyu Chen, Zhengliang Shi, Wanshun Chen, Huang Liu, Jiadi Yao, Qu Yang, Qingxuan Jiang, Fanghua Ye, Juntao Li, Min Zhang, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI

Resumo

O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) está remodelando os modelos multimodais, com a síntese de fala sendo uma aplicação proeminente. No entanto, as abordagens existentes frequentemente subutilizam a inteligência linguística desses modelos, geralmente falhando em aproveitar suas poderosas capacidades de seguir instruções. Essa limitação dificulta a capacidade do modelo de seguir instruções textuais para uma síntese de fala controlável (Text-to-Speech, TTS). Para resolver isso, propomos um novo paradigma inspirado no "operacionalismo" que desacopla a compreensão de instruções da geração de fala. Introduzimos o BatonVoice, um framework no qual um LLM atua como um "maestro", compreendendo as instruções do usuário e gerando um "plano" textual — características vocais explícitas (por exemplo, tom, energia). Um modelo TTS separado, a "orquestra", então gera a fala a partir dessas características. Para concretizar esse componente, desenvolvemos o BatonTTS, um modelo TTS treinado especificamente para essa tarefa. Nossos experimentos demonstram que o BatonVoice alcança um desempenho robusto na síntese de fala controlável e emocional, superando bases de código aberto e fechado. Notavelmente, nossa abordagem permite uma generalização notável de zero-shot entre idiomas, aplicando com precisão habilidades de controle de características a idiomas não vistos durante o pós-treinamento. Isso demonstra que objetivar a fala em características vocais textuais pode desbloquear de forma mais eficaz a inteligência linguística dos LLMs.
English
The rise of Large Language Models (LLMs) is reshaping multimodel models, with speech synthesis being a prominent application. However, existing approaches often underutilize the linguistic intelligence of these models, typically failing to leverage their powerful instruction-following capabilities. This limitation hinders the model's ability to follow text instructions for controllable Text-to-Speech~(TTS). To address this, we propose a new paradigm inspired by ``operationalism'' that decouples instruction understanding from speech generation. We introduce BatonVoice, a framework where an LLM acts as a ``conductor'', understanding user instructions and generating a textual ``plan'' -- explicit vocal features (e.g., pitch, energy). A separate TTS model, the ``orchestra'', then generates the speech from these features. To realize this component, we develop BatonTTS, a TTS model trained specifically for this task. Our experiments demonstrate that BatonVoice achieves strong performance in controllable and emotional speech synthesis, outperforming strong open- and closed-source baselines. Notably, our approach enables remarkable zero-shot cross-lingual generalization, accurately applying feature control abilities to languages unseen during post-training. This demonstrates that objectifying speech into textual vocal features can more effectively unlock the linguistic intelligence of LLMs.
PDF32October 2, 2025