Ativações de LLM direcionadas são não sobrejetivas.

Resumo

O direcionamento de ativações é uma técnica popular de controle em caixa-branca que modifica as ativações do modelo para elicitar uma mudança abstrata em seu comportamento. Tornou-se também uma ferramenta padrão em pesquisas de interpretabilidade (por exemplo, sondando veracidade ou traduzindo ativações em explicações legíveis por humanos) e de segurança (por exemplo, jailbreakability). No entanto, não está claro se o comportamento direcionado é realizável por algum prompt textual. Neste trabalho, formulamos essa questão como um problema de sobrejetividade: para um modelo fixo, toda ativação direcionada admite uma pré-imagem sob a passagem forward natural do modelo? Sob suposições práticas, provamos que o direcionamento de ativações empurra o fluxo residual para fora da variedade de estados alcançáveis a partir de prompts discretos. Quase certamente, nenhum prompt pode reproduzir o mesmo comportamento interno induzido pelo direcionamento. Ilustramos também esse achado empiricamente em três LLMs amplamente utilizados. Nossos resultados estabelecem uma separação formal entre direcionabilidade em caixa-branca e prompting em caixa-preta. Portanto, alertamos contra a interpretação da facilidade e do sucesso do direcionamento de ativações como evidência de interpretabilidade ou vulnerabilidade baseada em prompts, e defendemos protocolos de avaliação que desacoplem explicitamente intervenções em caixa-branca e em caixa-preta.

English

Activation steering is a popular white-box control technique that modifies model activations to elicit an abstract change in its behavior. It has also become a standard tool in interpretability (e.g., probing truthfulness, or translating activations into human-readable explanations) and safety research (e.g., jailbreakability). However, it is unclear whether steered behavior is realizable by any textual prompt. In this work, we cast this question as a surjectivity problem: for a fixed model, does every steered activation admit a preimage under the model's natural forward pass? Under practical assumptions, we prove that activation steering pushes the residual stream off the manifold of states reachable from discrete prompts. Almost surely, no prompt can reproduce the same internal behavior induced by steering. We also illustrate this finding empirically across three widely used LLMs. Our results establish a formal separation between white-box steerability and black-box prompting. We therefore caution against interpreting the ease and success of activation steering as evidence of prompt-based interpretability or vulnerability, and argue for evaluation protocols that explicitly decouple white-box and black-box interventions.