Intervenções SAE são Pouco Confiáveis: Recuperação Pós-Intervenção do Comportamento Suprimido

Resumo

Autoencoders Esparsos (AEs) decompõem ativações do fluxo residual em características interpretáveis. Defesas recentes em espaço latente dependem cada vez mais dessas decomposições, assumindo que características "inseguras" identificadas dos AEs servem como alças acionáveis para monitoramento e intervenção. Nesse paradigma, espera-se que fixar uma característica prejudicial específica impeça de forma confiável o mau comportamento do modelo. No entanto, mostramos que esse sucesso pode ocultar um modo de falha recuperável: a fixação pode bloquear uma rota visível para um comportamento sem eliminar o comportamento em si. Formulamos essa vulnerabilidade como recuperação pós-intervenção, um problema de otimização restrito no espaço residual. Partindo do estado residual pós-intervenção, otimizamos perturbações residuais para recuperar o comportamento pré-intervenção, preservando os valores pós-intervenção das características do AE alvo. Mesmo sob um modelo de ameaça forte, no qual a intervenção permanece ativa durante toda a otimização e geração, a recuperação permanece possível. Para descartar que a recuperação simplesmente desfaça a intervenção, utilizamos atualizações ortogonais ao codificador para intervenções em camada única e o Jacobiano do mapa de características correspondente no cenário entre camadas. Em experimentos com TPP, desaprendizado, IOI e direcionamento de recusa, esse teste de estresse revela comportamento recuperável apesar da intervenção bem-sucedida no nível das características. Especialmente no contexto crítico de segurança do direcionamento de recusa, alcançamos uma taxa de recuperação de 95,8% em amostras válidas, mantendo um desvio relativo da característica defendida em 0,131, substancialmente abaixo das linhas de base baseadas em sufixo. Uma análise de atribuição do caminho de recuperação localiza ainda essa recuperação no resíduo de reconstrução do AE, o componente não explicado pelo AE. Esses resultados expõem uma lacuna entre o controle no nível das características e a completude comportamental: características dos AEs podem apoiar intervenções causais, mas controlá-las não garante o controle sobre o comportamento subjacente.

English

Sparse Autoencoders (SAEs) decompose residual-stream activations into interpretable features. Recent latent-space defenses increasingly rely on these decompositions, assuming that identified "unsafe" SAE features serve as actionable handles for monitoring and intervention. In this paradigm, clamping a specific harmful feature is expected to reliably prevent model misbehavior. However, we show that this success may hide a recoverable failure mode: the clamp may block one visible route to a behavior without eliminating the behavior itself. We formulate this vulnerability as post-intervention recovery, a constrained residual-space optimization problem. Starting from the post-intervention residual state, we optimize residual perturbations to recover the pre-intervention behavior while preserving the post-intervention values of the targeted SAE features. Even under a strong threat model where the intervention remains active throughout optimization and generation, recovery remains possible. To rule out that recovery simply undoes the intervention, we use encoder-orthogonal updates for single-layer interventions and the corresponding feature-map Jacobian in the cross-layer setting. Across TPP, unlearning, IOI, and refusal steering experiments, this stress test reveals recoverable behavior despite successful feature-level intervention. Especially in the safety-critical refusal-steering setting, we achieve a 95.8% recovery rate on valid samples while keeping defended-feature relative drift to 0.131, substantially below suffix-based baselines. A recovery-path attribution analysis further localizes this recovery to the SAE reconstruction residual, the component left unexplained by the SAE. These results expose a gap between feature-level control and behavioral completeness: SAE features can support causal intervention, but controlling them does not guarantee control over the underlying behavior.