Интерпретация и управление языковой моделью преобразования текста в речь с помощью разреженных автоэнкодеров

Аннотация

Языковые модели все чаще служат основой систем преобразования текста в речь (TTS), однако мы мало знаем о представлениях, которые они формируют, когда текстовые и сгенерированные речевые токены совместно используют один остаточный поток. Мы обучаем разреженные автоэнкодеры BatchTopK на основной языковой модели CosyVoice3 и представляем модально-осведомленный конвейер автоинтерпретации, который маркирует каждый признак в зависимости от того, где он активируется: в контексте текстового префикса, в одсекундных речевых фрагментах или в обоих. Восстановленные признаки являются интерпретируемыми и охватывают фонемы, смех, подсказки акцента и пол говорящего. Управление латентным пространством разреженного автоэнкодера показывает, что эти признаки являются каузальными, а не просто описательными: целенаправленные вмешательства повышают вероятность смеха с 0,02 до 0,79, изменяют воспринимаемый пол говорящего и контролируют темп речи, сохраняя речевое содержание. Таким образом, признаки SAE служат как объектами интерпретируемости, так и направлениями управления для синтеза TTS.

English

Language models increasingly serve as the backbone of text-to-speech (TTS) systems, yet we understand little about the representations they build when text and generated speech tokens share a single residual stream. We train BatchTopK sparse autoencoders on the LM backbone of CosyVoice3 and introduce a modality-aware auto-interp pipeline that labels each feature from where it fires-text-prefix context, 1-second speech clips, or both. The recovered features are interpretable, spanning phonemes, laughter, accent prompts and speaker gender. Steering through the SAE latent space shows these features are causal rather than merely descriptive: targeted interventions raise laughter probability from 0.02 to 0.79, flip perceived speaker gender, and control speech rate while preserving spoken content. SAE features thus serve both as interpretability objects and as control directions for TTS synthesis.