Las intervenciones SAE no son fiables: recuperación posterior a la intervención del comportamiento suprimido

Resumen

Los Autoencoders Dispersos (SAEs) descomponen las activaciones del flujo residual en características interpretables. Las defensas recientes en el espacio latente dependen cada vez más de estas descomposiciones, asumiendo que las características SAE identificadas como "inseguras" sirven como manejadores viables para la monitorización e intervención. En este paradigma, se espera que la supresión de una característica dañina específica impida de manera fiable el mal comportamiento del modelo. Sin embargo, demostramos que este éxito puede ocultar un modo de fallo recuperable: la supresión puede bloquear una ruta visible hacia un comportamiento sin eliminar el comportamiento en sí. Formulamos esta vulnerabilidad como recuperación post-intervención, un problema de optimización en el espacio residual restringido. Partiendo del estado residual post-intervención, optimizamos las perturbaciones residuales para recuperar el comportamiento previo a la intervención mientras preservamos los valores post-intervención de las características SAE objetivo. Incluso bajo un modelo de amenaza severo donde la intervención permanece activa durante toda la optimización y generación, la recuperación sigue siendo posible. Para descartar que la recuperación simplemente deshaga la intervención, utilizamos actualizaciones ortogonales al codificador para intervenciones en una sola capa y el jacobiano del mapa de características correspondiente en el contexto multicapa. A través de experimentos de TPP, desaprendizaje, IOI y control de rechazo, esta prueba de estrés revela un comportamiento recuperable a pesar de una intervención exitosa a nivel de características. Particularmente en el entorno crítico de seguridad del control de rechazo, logramos una tasa de recuperación del 95.8% en muestras válidas, manteniendo una deriva relativa de la característica defendida en 0.131, sustancialmente por debajo de las líneas base basadas en sufijos. Un análisis de atribución de la ruta de recuperación localiza aún más esta recuperación en el residual de reconstrucción del SAE, el componente que el SAE deja sin explicar. Estos resultados exponen una brecha entre el control a nivel de características y la completitud conductual: las características del SAE pueden respaldar la intervención causal, pero controlarlas no garantiza el control sobre el comportamiento subyacente.

English

Sparse Autoencoders (SAEs) decompose residual-stream activations into interpretable features. Recent latent-space defenses increasingly rely on these decompositions, assuming that identified "unsafe" SAE features serve as actionable handles for monitoring and intervention. In this paradigm, clamping a specific harmful feature is expected to reliably prevent model misbehavior. However, we show that this success may hide a recoverable failure mode: the clamp may block one visible route to a behavior without eliminating the behavior itself. We formulate this vulnerability as post-intervention recovery, a constrained residual-space optimization problem. Starting from the post-intervention residual state, we optimize residual perturbations to recover the pre-intervention behavior while preserving the post-intervention values of the targeted SAE features. Even under a strong threat model where the intervention remains active throughout optimization and generation, recovery remains possible. To rule out that recovery simply undoes the intervention, we use encoder-orthogonal updates for single-layer interventions and the corresponding feature-map Jacobian in the cross-layer setting. Across TPP, unlearning, IOI, and refusal steering experiments, this stress test reveals recoverable behavior despite successful feature-level intervention. Especially in the safety-critical refusal-steering setting, we achieve a 95.8% recovery rate on valid samples while keeping defended-feature relative drift to 0.131, substantially below suffix-based baselines. A recovery-path attribution analysis further localizes this recovery to the SAE reconstruction residual, the component left unexplained by the SAE. These results expose a gap between feature-level control and behavioral completeness: SAE features can support causal intervention, but controlling them does not guarantee control over the underlying behavior.