SAE-Interventionen sind unzuverlässig: Wiederherstellung unterdrückten Verhaltens nach der Intervention

Zusammenfassung

Sparse Autoencoder (SAEs) zerlegen Residualstrom-Aktivierungen in interpretierbare Merkmale. Neuere Latenzraum-Verteidigungen stützen sich zunehmend auf diese Zerlegungen unter der Annahme, dass identifizierte „unsichere“ SAE-Merkmale als handhabbare Ansatzpunkte für Überwachung und Intervention dienen. In diesem Paradigma wird erwartet, dass das Klemmen eines bestimmten schädlichen Merkmals zuverlässig Fehlverhalten des Modells verhindert. Wir zeigen jedoch, dass dieser Erfolg einen wiederherstellbaren Fehlermodus verbergen kann: Die Klemme blockiert möglicherweise einen sichtbaren Weg zu einem Verhalten, ohne das Verhalten selbst zu beseitigen. Wir formulieren diese Schwachstelle als Wiederherstellung nach Intervention (post-intervention recovery), ein eingeschränktes Optimierungsproblem im Residualraum. Ausgehend vom Residualzustand nach der Intervention optimieren wir Residualstörungen, um das Verhalten vor der Intervention wiederherzustellen, während die Werte der anvisierten SAE-Merkmale nach der Intervention erhalten bleiben. Selbst unter einem starken Bedrohungsmodell, bei dem die Intervention während Optimierung und Generierung aktiv bleibt, bleibt eine Wiederherstellung möglich. Um auszuschließen, dass die Wiederherstellung die Intervention einfach rückgängig macht, verwenden wir encoder-orthogonale Aktualisierungen für Ein-Schicht-Interventionen und die entsprechende Feature-Map-Jacobi-Matrix im schichtübergreifenden Fall. In Experimenten zu TPP, Unlearning, IOI und Refusal Steering zeigt dieser Belastungstest wiederherstellbares Verhalten trotz erfolgreicher Merkmalsintervention. Besonders im sicherheitskritischen Refusal-Steering-Setting erreichen wir eine Wiederherstellungsrate von 95,8 % für gültige Stichproben, während die relative Drift der verteidigten Merkmale bei 0,131 liegt, deutlich unter suffixbasierten Basislinien. Eine Attributionsanalyse des Wiederherstellungspfads lokalisiert diese Wiederherstellung weiter auf das SAE-Rekonstruktionsresiduum, die durch den SAE unerklärte Komponente. Diese Ergebnisse legen eine Lücke zwischen Merkmalskontrolle und verhaltensbezogener Vollständigkeit offen: SAE-Merkmale können kausale Interventionen unterstützen, aber ihre Kontrolle garantiert nicht die Kontrolle über das zugrundeliegende Verhalten.

English

Sparse Autoencoders (SAEs) decompose residual-stream activations into interpretable features. Recent latent-space defenses increasingly rely on these decompositions, assuming that identified "unsafe" SAE features serve as actionable handles for monitoring and intervention. In this paradigm, clamping a specific harmful feature is expected to reliably prevent model misbehavior. However, we show that this success may hide a recoverable failure mode: the clamp may block one visible route to a behavior without eliminating the behavior itself. We formulate this vulnerability as post-intervention recovery, a constrained residual-space optimization problem. Starting from the post-intervention residual state, we optimize residual perturbations to recover the pre-intervention behavior while preserving the post-intervention values of the targeted SAE features. Even under a strong threat model where the intervention remains active throughout optimization and generation, recovery remains possible. To rule out that recovery simply undoes the intervention, we use encoder-orthogonal updates for single-layer interventions and the corresponding feature-map Jacobian in the cross-layer setting. Across TPP, unlearning, IOI, and refusal steering experiments, this stress test reveals recoverable behavior despite successful feature-level intervention. Especially in the safety-critical refusal-steering setting, we achieve a 95.8% recovery rate on valid samples while keeping defended-feature relative drift to 0.131, substantially below suffix-based baselines. A recovery-path attribution analysis further localizes this recovery to the SAE reconstruction residual, the component left unexplained by the SAE. These results expose a gap between feature-level control and behavioral completeness: SAE features can support causal intervention, but controlling them does not guarantee control over the underlying behavior.