Вмешательства SAE ненадежны: восстановление подавленного поведения после вмешательства

Аннотация

Разреженные автоэнкодеры (SAE) декомпозируют активации остаточного потока в интерпретируемые признаки. Недавние защиты в скрытом пространстве всё чаще полагаются на такие декомпозиции, предполагая, что идентифицированные «небезопасные» признаки SAE служат действенными рычагами для мониторинга и вмешательства. В этой парадигме ожидается, что подавление определённого вредоносного признака надёжно предотвратит нежелательное поведение модели. Однако мы показываем, что такой успех может скрывать восстанавливаемый режим отказа: подавление может блокировать один видимый путь к поведению, не устраняя само поведение. Мы формулируем эту уязвимость как восстановление после вмешательства — задачу оптимизации в ограниченном пространстве остаточных состояний. Начиная с остаточного состояния после вмешательства, мы оптимизируем остаточные возмущения для восстановления поведения до вмешательства, сохраняя при этом значения целевых признаков SAE после вмешательства. Даже при сильной модели угрозы, где вмешательство остаётся активным на протяжении всей оптимизации и генерации, восстановление остаётся возможным. Чтобы исключить, что восстановление просто отменяет вмешательство, мы используем ортогональные к кодировщику обновления для однослойных вмешательств и соответствующий якобиан отображения признаков в многослойном сценарии. В экспериментах с TPP, разобучением, IOI и управлением отказом этот стресс-тест выявляет восстанавливаемое поведение, несмотря на успешное вмешательство на уровне признаков. Особенно в критическом для безопасности сценарии управления отказом мы достигаем 95,8% уровня восстановления на валидных образцах, сохраняя относительное отклонение защищённых признаков на уровне 0,131, что существенно ниже базовых показателей для суффиксных методов. Анализ атрибуции путей восстановления дополнительно локализует это восстановление в остатке реконструкции SAE — компоненте, не объяснённом автоэнкодером. Эти результаты выявляют разрыв между контролем на уровне признаков и полнотой поведения: признаки SAE могут поддерживать причинное вмешательство, но управление ими не гарантирует контроль над лежащим в основе поведением.

English

Sparse Autoencoders (SAEs) decompose residual-stream activations into interpretable features. Recent latent-space defenses increasingly rely on these decompositions, assuming that identified "unsafe" SAE features serve as actionable handles for monitoring and intervention. In this paradigm, clamping a specific harmful feature is expected to reliably prevent model misbehavior. However, we show that this success may hide a recoverable failure mode: the clamp may block one visible route to a behavior without eliminating the behavior itself. We formulate this vulnerability as post-intervention recovery, a constrained residual-space optimization problem. Starting from the post-intervention residual state, we optimize residual perturbations to recover the pre-intervention behavior while preserving the post-intervention values of the targeted SAE features. Even under a strong threat model where the intervention remains active throughout optimization and generation, recovery remains possible. To rule out that recovery simply undoes the intervention, we use encoder-orthogonal updates for single-layer interventions and the corresponding feature-map Jacobian in the cross-layer setting. Across TPP, unlearning, IOI, and refusal steering experiments, this stress test reveals recoverable behavior despite successful feature-level intervention. Especially in the safety-critical refusal-steering setting, we achieve a 95.8% recovery rate on valid samples while keeping defended-feature relative drift to 0.131, substantially below suffix-based baselines. A recovery-path attribution analysis further localizes this recovery to the SAE reconstruction residual, the component left unexplained by the SAE. These results expose a gap between feature-level control and behavioral completeness: SAE features can support causal intervention, but controlling them does not guarantee control over the underlying behavior.