Gesteuerte LLM-Aktivierungen sind nicht surjektiv.

Zusammenfassung

Aktivierungssteuerung ist eine verbreitete White-Box-Kontrolltechnik, die Modellaktivierungen modifiziert, um eine abstrakte Verhaltensänderung zu bewirken. Sie hat sich zudem als Standardwerkzeug in der Interpretierbarkeitsforschung (z. B. zur Untersuchung von Wahrhaftigkeit oder zur Übersetzung von Aktivierungen in menschenlesbare Erklärungen) und in der Sicherheitsforschung (z. B. zur Jailbreakbarkeit) etabliert. Allerdings ist unklar, ob gesteuertes Verhalten durch irgendeinen textuellen Prompt realisierbar ist. In dieser Arbeit fassen wir diese Frage als Surjektivitätsproblem auf: Besitzt für ein festes Modell jede gesteuerte Aktivierung ein Urbild unter dem natürlichen Vorwärtsdurchlauf des Modells? Unter praktischen Annahmen beweisen wir, dass Aktivierungssteuerung den Residualstrom von der Mannigfaltigkeit der aus diskreten Prompts erreichbaren Zustände wegschiebt. Mit hoher Wahrscheinlichkeit kann kein Prompt das gleiche interne Verhalten reproduzieren, das durch Steuerung hervorgerufen wird. Wir veranschaulichen dieses Ergebnis zudem empirisch an drei weit verbreiteten LLMs. Unsere Ergebnisse etablieren eine formale Trennung zwischen White-Box-Steuerbarkeit und Black-Box-Prompting. Daher warnen wir davor, die Leichtigkeit und den Erfolg von Aktivierungssteuerung als Beleg für Prompt-basierte Interpretierbarkeit oder Verwundbarkeit zu interpretieren, und plädieren für Evaluierungsprotokolle, die White-Box- und Black-Box-Interventionen explizit entkoppeln.

English

Activation steering is a popular white-box control technique that modifies model activations to elicit an abstract change in its behavior. It has also become a standard tool in interpretability (e.g., probing truthfulness, or translating activations into human-readable explanations) and safety research (e.g., jailbreakability). However, it is unclear whether steered behavior is realizable by any textual prompt. In this work, we cast this question as a surjectivity problem: for a fixed model, does every steered activation admit a preimage under the model's natural forward pass? Under practical assumptions, we prove that activation steering pushes the residual stream off the manifold of states reachable from discrete prompts. Almost surely, no prompt can reproduce the same internal behavior induced by steering. We also illustrate this finding empirically across three widely used LLMs. Our results establish a formal separation between white-box steerability and black-box prompting. We therefore caution against interpreting the ease and success of activation steering as evidence of prompt-based interpretability or vulnerability, and argue for evaluation protocols that explicitly decouple white-box and black-box interventions.