Las activaciones dirigidas de los LLM son no sobreyectivas

Resumen

La dirección de activaciones es una técnica popular de control de caja blanca que modifica las activaciones del modelo para provocar un cambio abstracto en su comportamiento. También se ha convertido en una herramienta estándar en la investigación en interpretabilidad (por ejemplo, sondear la veracidad, o traducir activaciones en explicaciones legibles para humanos) y en seguridad (por ejemplo, la capacidad de jailbreak). Sin embargo, no está claro si el comportamiento dirigido es realizable mediante algún prompt textual. En este trabajo, planteamos esta cuestión como un problema de sobreyectividad: para un modelo fijo, ¿toda activación dirigida admite una preimagen bajo el paso hacia adelante natural del modelo? Bajo supuestos prácticos, demostramos que la dirección de activaciones empuja el flujo residual fuera de la variedad de estados alcanzables desde prompts discretos. Casi con certeza, ningún prompt puede reproducir el mismo comportamiento interno inducido por la dirección. También ilustramos este hallazgo empíricamente en tres LLMs ampliamente utilizados. Nuestros resultados establecen una separación formal entre la controlabilidad de caja blanca y el prompting de caja negra. Por lo tanto, advertimos contra la interpretación de la facilidad y el éxito de la dirección de activaciones como evidencia de interpretabilidad o vulnerabilidad basada en prompts, y abogamos por protocolos de evaluación que desacoplen explícitamente las intervenciones de caja blanca y caja negra.

English

Activation steering is a popular white-box control technique that modifies model activations to elicit an abstract change in its behavior. It has also become a standard tool in interpretability (e.g., probing truthfulness, or translating activations into human-readable explanations) and safety research (e.g., jailbreakability). However, it is unclear whether steered behavior is realizable by any textual prompt. In this work, we cast this question as a surjectivity problem: for a fixed model, does every steered activation admit a preimage under the model's natural forward pass? Under practical assumptions, we prove that activation steering pushes the residual stream off the manifold of states reachable from discrete prompts. Almost surely, no prompt can reproduce the same internal behavior induced by steering. We also illustrate this finding empirically across three widely used LLMs. Our results establish a formal separation between white-box steerability and black-box prompting. We therefore caution against interpreting the ease and success of activation steering as evidence of prompt-based interpretability or vulnerability, and argue for evaluation protocols that explicitly decouple white-box and black-box interventions.