ChatPaper.aiChatPaper

Interpretation und Steuerung eines Text-zu-Sprache-Sprachmodells mit Sparse-Autoencodern

Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

June 8, 2026
Autoren: Nikita Koriagin, Georgii Aparin, Nikita Balagansky, Daniil Gavrilov
cs.AI

Zusammenfassung

Sprachmodelle dienen zunehmend als Rückgrat von Text-zu-Sprache-Systemen (TTS), doch wir verstehen noch wenig darüber, welche Repräsentationen sie aufbauen, wenn Text- und generierte Sprach-Token einen einzigen residualen Datenstrom gemeinsam nutzen. Wir trainieren BatchTopK-Sparse-Autoencoder auf dem LM-Backbone von CosyVoice3 und führen eine modalitätsbewusste Auto-Interp-Pipeline ein, die jedes Merkmal danach beschriftet, in welchem Kontext es aktiviert wird – Text-Präfix-Kontext, 1-Sekunden-Sprachclips oder beidem. Die wiederhergestellten Merkmale sind interpretierbar und umfassen Phoneme, Lachen, Akzentaufforderungen sowie das Sprechergeschlecht. Die Steuerung durch den SAE-Latentraum zeigt, dass diese Merkmale kausal und nicht nur deskriptiv sind: Gezielte Eingriffe erhöhen die Lachwahrscheinlichkeit von 0,02 auf 0,79, kehren das wahrgenommene Sprechergeschlecht um und steuern die Sprechgeschwindigkeit, während der gesprochene Inhalt erhalten bleibt. SAE-Merkmale dienen somit sowohl als Interpretierbarkeitsobjekte als auch als Kontrollrichtungen für die TTS-Synthese.
English
Language models increasingly serve as the backbone of text-to-speech (TTS) systems, yet we understand little about the representations they build when text and generated speech tokens share a single residual stream. We train BatchTopK sparse autoencoders on the LM backbone of CosyVoice3 and introduce a modality-aware auto-interp pipeline that labels each feature from where it fires-text-prefix context, 1-second speech clips, or both. The recovered features are interpretable, spanning phonemes, laughter, accent prompts and speaker gender. Steering through the SAE latent space shows these features are causal rather than merely descriptive: targeted interventions raise laughter probability from 0.02 to 0.79, flip perceived speaker gender, and control speech rate while preserving spoken content. SAE features thus serve both as interpretability objects and as control directions for TTS synthesis.