Interpretando y dirigiendo un modelo de lenguaje de texto a voz con autoencoders dispersos

Resumen

Los modelos de lenguaje se utilizan cada vez más como base de los sistemas de conversión de texto a voz (TTS), pero entendemos poco sobre las representaciones que construyen cuando el texto y los tokens de voz generada comparten un único flujo residual. Entrenamos autoencoders dispersos BatchTopK en el modelo de lenguaje base de CosyVoice3 e introducimos un pipeline de autointerpretación consciente de la modalidad que etiqueta cada característica según dónde se activa: contexto de prefijo de texto, fragmentos de voz de 1 segundo, o ambos. Las características recuperadas son interpretables y abarcan fonemas, risas, indicaciones de acento y género del hablante. La manipulación a través del espacio latente del SAE muestra que estas características son causales y no meramente descriptivas: intervenciones específicas aumentan la probabilidad de risa de 0,02 a 0,79, invierten el género percibido del hablante y controlan la velocidad del habla sin alterar el contenido verbal. Por lo tanto, las características del SAE sirven tanto como objetos de interpretabilidad como direcciones de control para la síntesis de TTS.

English

Language models increasingly serve as the backbone of text-to-speech (TTS) systems, yet we understand little about the representations they build when text and generated speech tokens share a single residual stream. We train BatchTopK sparse autoencoders on the LM backbone of CosyVoice3 and introduce a modality-aware auto-interp pipeline that labels each feature from where it fires-text-prefix context, 1-second speech clips, or both. The recovered features are interpretable, spanning phonemes, laughter, accent prompts and speaker gender. Steering through the SAE latent space shows these features are causal rather than merely descriptive: targeted interventions raise laughter probability from 0.02 to 0.79, flip perceived speaker gender, and control speech rate while preserving spoken content. SAE features thus serve both as interpretability objects and as control directions for TTS synthesis.