Управляемые активации LLM несюръективны

Аннотация

Управление активациями — это популярный белоящичный метод управления, который изменяет активации модели, чтобы вызвать абстрактное изменение ее поведения. Он также стал стандартным инструментом в исследованиях интерпретируемости (например, зондирование правдивости или перевод активаций в понятные человеку объяснения) и безопасности (например, взламываемость). Однако неясно, может ли управляемое поведение быть реализовано с помощью какого-либо текстового запроса. В этой работе мы формулируем этот вопрос как проблему сюръективности: для фиксированной модели, существует ли прообраз для каждого управляемого состояния активации при естественном прямом проходе модели? При практических предположениях мы доказываем, что управление активациями выталкивает остаточный поток с многообразия состояний, достижимых из дискретных запросов. Почти наверняка ни один запрос не может воспроизвести то же внутреннее поведение, вызванное управлением. Мы также эмпирически демонстрируем этот вывод на трех широко используемых LLM. Наши результаты устанавливают формальное различие между управляемостью белого ящика и промптингом черного ящика. Поэтому мы предостерегаем от интерпретации легкости и успешности управления активациями как свидетельства интерпретируемости или уязвимости на основе промптов, и выступаем за протоколы оценки, которые явно разделяют вмешательства белого и черного ящика.

English

Activation steering is a popular white-box control technique that modifies model activations to elicit an abstract change in its behavior. It has also become a standard tool in interpretability (e.g., probing truthfulness, or translating activations into human-readable explanations) and safety research (e.g., jailbreakability). However, it is unclear whether steered behavior is realizable by any textual prompt. In this work, we cast this question as a surjectivity problem: for a fixed model, does every steered activation admit a preimage under the model's natural forward pass? Under practical assumptions, we prove that activation steering pushes the residual stream off the manifold of states reachable from discrete prompts. Almost surely, no prompt can reproduce the same internal behavior induced by steering. We also illustrate this finding empirically across three widely used LLMs. Our results establish a formal separation between white-box steerability and black-box prompting. We therefore caution against interpreting the ease and success of activation steering as evidence of prompt-based interpretability or vulnerability, and argue for evaluation protocols that explicitly decouple white-box and black-box interventions.