Gestuurde LLM-activaties zijn niet-surjectief

Samenvatting

Actiesturing is een populaire white-box controletechniek die modelactivaties aanpast om een abstracte gedragsverandering teweeg te brengen. Het is tevens een standaardinstrument geworden in interpreteerbaarheidsonderzoek (bijv. het onderzoeken van waarachtigheid of het vertalen van activaties naar menselijk leesbare verklaringen) en veiligheidsonderzoek (bijv. jailbreakbaarheid). Het is echter onduidelijk of gestuurd gedrag door middel van een tekstuele prompt kan worden gerealiseerd. In dit werk formuleren we deze vraag als een surjectiviteitsprobleem: voor een vast model, bezit elke gestuurde activatie een origineel beeld onder de natuurlijke voorwaartse doorgang van het model? Onder praktische aannames bewijzen we dat actiesturing de residustroom van de variëteit van toestanden afduwt die vanuit discrete prompts bereikbaar zijn. Vrijwel zeker kan geen prompt hetzelfde interne gedrag reproduceren dat door sturing wordt geïnduceerd. We illustreren deze bevinding ook empirisch voor drie veelgebruikte grote taalmodellen. Onze resultaten stellen een formeel onderscheid vast tussen white-box bestuurbaarheid en black-box prompting. We waarschuwen daarom tegen het interpreteren van het gemak en het succes van actiesturing als bewijs van prompt-gebaseerde interpreteerbaarheid of kwetsbaarheid, en pleiten voor evaluatieprotocollen die white-box- en black-box-interventies expliciet ontkoppelen.

English

Activation steering is a popular white-box control technique that modifies model activations to elicit an abstract change in its behavior. It has also become a standard tool in interpretability (e.g., probing truthfulness, or translating activations into human-readable explanations) and safety research (e.g., jailbreakability). However, it is unclear whether steered behavior is realizable by any textual prompt. In this work, we cast this question as a surjectivity problem: for a fixed model, does every steered activation admit a preimage under the model's natural forward pass? Under practical assumptions, we prove that activation steering pushes the residual stream off the manifold of states reachable from discrete prompts. Almost surely, no prompt can reproduce the same internal behavior induced by steering. We also illustrate this finding empirically across three widely used LLMs. Our results establish a formal separation between white-box steerability and black-box prompting. We therefore caution against interpreting the ease and success of activation steering as evidence of prompt-based interpretability or vulnerability, and argue for evaluation protocols that explicitly decouple white-box and black-box interventions.