Les activations orientées des LLM sont non surjectives

Résumé

L'orientation d'activation est une technique de contrôle en boîte blanche populaire qui modifie les activations d'un modèle afin d'obtenir un changement abstrait dans son comportement. Elle est également devenue un outil standard dans la recherche en interprétabilité (par exemple, sonder la véracité ou traduire les activations en explications compréhensibles par l'humain) et en sécurité (par exemple, le risque de contournement). Cependant, on ne sait pas dans quelle mesure le comportement orienté est réalisable par une invite textuelle quelconque. Dans ce travail, nous formulons cette question comme un problème de surjectivité : pour un modèle fixé, toute activation orientée admet-elle un antécédent dans le passage avant naturel du modèle ? Sous des hypothèses pratiques, nous prouvons que l'orientation d'activation pousse le flux résiduel hors de la variété des états accessibles à partir d'invites discrètes. Presque sûrement, aucune invite ne peut reproduire le même comportement interne induit par l'orientation. Nous illustrons également cette conclusion empiriquement sur trois LLMs largement utilisés. Nos résultats établissent une séparation formelle entre l'orientabilité en boîte blanche et le prompting en boîte noire. Par conséquent, nous mettons en garde contre l'interprétation de la facilité et du succès de l'orientation d'activation comme une preuve d'interprétabilité ou de vulnérabilité basée sur l'invite, et nous plaidons pour des protocoles d'évaluation qui découplent explicitement les interventions en boîte blanche et en boîte noire.

English

Activation steering is a popular white-box control technique that modifies model activations to elicit an abstract change in its behavior. It has also become a standard tool in interpretability (e.g., probing truthfulness, or translating activations into human-readable explanations) and safety research (e.g., jailbreakability). However, it is unclear whether steered behavior is realizable by any textual prompt. In this work, we cast this question as a surjectivity problem: for a fixed model, does every steered activation admit a preimage under the model's natural forward pass? Under practical assumptions, we prove that activation steering pushes the residual stream off the manifold of states reachable from discrete prompts. Almost surely, no prompt can reproduce the same internal behavior induced by steering. We also illustrate this finding empirically across three widely used LLMs. Our results establish a formal separation between white-box steerability and black-box prompting. We therefore caution against interpreting the ease and success of activation steering as evidence of prompt-based interpretability or vulnerability, and argue for evaluation protocols that explicitly decouple white-box and black-box interventions.