SAE-interventies zijn onbetrouwbaar: herstel van onderdrukt gedrag na interventie

Samenvatting

Sparse Autoencoders (SAE's) ontleden activaties in de residustroom in interpreteerbare kenmerken. Recente verdedigingen in de latente ruimte steunen steeds vaker op deze ontledingen, onder de aanname dat geïdentificeerde 'onveilige' SAE-kenmerken dienen als hanteerbare handvatten voor monitoring en interventie. In dit paradigma wordt verwacht dat het vastzetten van een specifiek schadelijk kenmerk betrouwbaar modelmisgedrag voorkomt. Wij tonen echter aan dat dit succes een herstelbare foutmodus kan verbergen: het vastzetten kan een zichtbare route naar een gedrag blokkeren zonder het gedrag zelf te elimineren. We formuleren deze kwetsbaarheid als herstel na interventie, een beperkt optimalisatieprobleem in de residu-ruimte. Uitgaande van de residutoestand na interventie optimaliseren we residu-perturbaties om het gedrag van vóór de interventie te herstellen, terwijl de waarden na interventie van de beoogde SAE-kenmerken behouden blijven. Zelfs onder een sterk dreigingsmodel waarbij de interventie actief blijft gedurende optimalisatie en generatie, blijft herstel mogelijk. Om uit te sluiten dat herstel simpelweg de interventie ongedaan maakt, gebruiken we encoder-orthogonale updates voor interventies op één laag en de corresponderende Jacobiaan van de kenmerkafbeelding in de kruislaagsetting. In experimenten met TPP, unlearning, IOI en weigeringssturing onthult deze stresstest herstelbaar gedrag ondanks succesvolle interventie op kenmerkniveau. Vooral in de veiligheidskritische setting van weigeringssturing behalen we een herstelpercentage van 95,8% op geldige monsters, terwijl de relatieve drift van verdedigde kenmerken op 0,131 blijft, aanzienlijk lager dan op suffix gebaseerde basislijnen. Een attributieanalyse van het herstelpad lokaliseert dit herstel verder naar het reconstructieresidu van de SAE, de component die niet door de SAE wordt verklaard. Deze resultaten onthullen een kloof tussen controle op kenmerkniveau en gedragscompleetheid: SAE-kenmerken kunnen causale interventie ondersteunen, maar het controleren ervan garandeert geen controle over het onderliggende gedrag.

English

Sparse Autoencoders (SAEs) decompose residual-stream activations into interpretable features. Recent latent-space defenses increasingly rely on these decompositions, assuming that identified "unsafe" SAE features serve as actionable handles for monitoring and intervention. In this paradigm, clamping a specific harmful feature is expected to reliably prevent model misbehavior. However, we show that this success may hide a recoverable failure mode: the clamp may block one visible route to a behavior without eliminating the behavior itself. We formulate this vulnerability as post-intervention recovery, a constrained residual-space optimization problem. Starting from the post-intervention residual state, we optimize residual perturbations to recover the pre-intervention behavior while preserving the post-intervention values of the targeted SAE features. Even under a strong threat model where the intervention remains active throughout optimization and generation, recovery remains possible. To rule out that recovery simply undoes the intervention, we use encoder-orthogonal updates for single-layer interventions and the corresponding feature-map Jacobian in the cross-layer setting. Across TPP, unlearning, IOI, and refusal steering experiments, this stress test reveals recoverable behavior despite successful feature-level intervention. Especially in the safety-critical refusal-steering setting, we achieve a 95.8% recovery rate on valid samples while keeping defended-feature relative drift to 0.131, substantially below suffix-based baselines. A recovery-path attribution analysis further localizes this recovery to the SAE reconstruction residual, the component left unexplained by the SAE. These results expose a gap between feature-level control and behavioral completeness: SAE features can support causal intervention, but controlling them does not guarantee control over the underlying behavior.