BatonVoice: Операционалистская структура для улучшения управляемого синтеза речи с использованием лингвистического интеллекта крупных языковых моделей
BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs
September 30, 2025
Авторы: Yue Wang, Ruotian Ma, Xingyu Chen, Zhengliang Shi, Wanshun Chen, Huang Liu, Jiadi Yao, Qu Yang, Qingxuan Jiang, Fanghua Ye, Juntao Li, Min Zhang, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
Аннотация
Рост крупных языковых моделей (LLM) трансформирует мультимодальные модели, причем синтез речи является одним из ключевых применений. Однако существующие подходы часто недостаточно используют лингвистический интеллект этих моделей, обычно не задействуя их мощные возможности следования инструкциям. Это ограничение препятствует способности модели следовать текстовым инструкциям для управляемого преобразования текста в речь (Text-to-Speech, TTS). Для решения этой проблемы мы предлагаем новую парадигму, вдохновленную «операционализмом», которая разделяет понимание инструкций и генерацию речи. Мы представляем BatonVoice — фреймворк, в котором LLM выступает в роли «дирижера», понимая пользовательские инструкции и генерируя текстовый «план» — явные вокальные характеристики (например, высота тона, энергия). Отдельная модель TTS, «оркестр», затем генерирует речь на основе этих характеристик. Для реализации этого компонента мы разработали BatonTTS — модель TTS, специально обученную для этой задачи. Наши эксперименты показывают, что BatonVoice демонстрирует высокую производительность в управляемом и эмоциональном синтезе речи, превосходя сильные открытые и закрытые базовые модели. Особенно важно, что наш подход обеспечивает впечатляющую кросс-лингвистическую генерализацию «с нуля», точно применяя способности управления характеристиками к языкам, не встречавшимся в процессе пост-обучения. Это демонстрирует, что объективизация речи в текстовые вокальные характеристики может более эффективно раскрыть лингвистический интеллект LLM.
English
The rise of Large Language Models (LLMs) is reshaping multimodel models, with
speech synthesis being a prominent application. However, existing approaches
often underutilize the linguistic intelligence of these models, typically
failing to leverage their powerful instruction-following capabilities. This
limitation hinders the model's ability to follow text instructions for
controllable Text-to-Speech~(TTS). To address this, we propose a new paradigm
inspired by ``operationalism'' that decouples instruction understanding from
speech generation. We introduce BatonVoice, a framework where an LLM acts as a
``conductor'', understanding user instructions and generating a textual
``plan'' -- explicit vocal features (e.g., pitch, energy). A separate TTS
model, the ``orchestra'', then generates the speech from these features. To
realize this component, we develop BatonTTS, a TTS model trained specifically
for this task. Our experiments demonstrate that BatonVoice achieves strong
performance in controllable and emotional speech synthesis, outperforming
strong open- and closed-source baselines. Notably, our approach enables
remarkable zero-shot cross-lingual generalization, accurately applying feature
control abilities to languages unseen during post-training. This demonstrates
that objectifying speech into textual vocal features can more effectively
unlock the linguistic intelligence of LLMs.