Les interventions SAE ne sont pas fiables : récupération post-intervention du comportement supprimé

Résumé

Les autoencodeurs parcimonieux (Sparse Autoencoders, SAE) décomposent les activations du flux résiduel en caractéristiques interprétables. Les défenses récentes dans l’espace latent reposent de plus en plus sur ces décompositions, en supposant que les caractéristiques SAE identifiées comme « dangereuses » constituent des leviers exploitables pour la surveillance et l’intervention. Dans ce paradigme, fixer une caractéristique nuisible spécifique est censé empêcher de manière fiable tout comportement indésirable du modèle. Cependant, nous montrons que ce succès peut masquer un mode de défaillance récupérable : la fixation peut bloquer une voie visible vers un comportement sans pour autant éliminer le comportement lui-même. Nous formalisons cette vulnérabilité comme une récupération post-intervention, un problème d’optimisation sous contrainte dans l’espace résiduel. À partir de l’état résiduel post-intervention, nous optimisons les perturbations résiduelles afin de retrouver le comportement pré-intervention tout en préservant les valeurs post-intervention des caractéristiques SAE ciblées. Même sous un modèle de menace fort où l’intervention reste active tout au long de l’optimisation et de la génération, la récupération reste possible. Pour écarter l’hypothèse que la récupération annule simplement l’intervention, nous utilisons des mises à jour orthogonales à l’encodeur pour les interventions monocouches et le jacobien de l’application de caractéristiques correspondant dans le contexte multicouche. À travers des expériences sur TPP, l’oubli (unlearning), IOI et le guidage par refus, ce test de résistance met en évidence un comportement récupérable malgré une intervention réussie au niveau des caractéristiques. En particulier, dans le contexte critique de guidage par refus, nous obtenons un taux de récupération de 95,8 % sur les échantillons valides tout en maintenant la dérive relative des caractéristiques défendues à 0,131, soit bien en dessous des références basées sur des suffixes. Une analyse d’attribution du chemin de récupération localise en outre cette récupération dans le résidu de reconstruction du SAE, la composante non expliquée par le SAE. Ces résultats révèlent un écart entre le contrôle au niveau des caractéristiques et la complétude comportementale : les caractéristiques SAE peuvent soutenir une intervention causale, mais les contrôler ne garantit pas le contrôle du comportement sous-jacent.

English

Sparse Autoencoders (SAEs) decompose residual-stream activations into interpretable features. Recent latent-space defenses increasingly rely on these decompositions, assuming that identified "unsafe" SAE features serve as actionable handles for monitoring and intervention. In this paradigm, clamping a specific harmful feature is expected to reliably prevent model misbehavior. However, we show that this success may hide a recoverable failure mode: the clamp may block one visible route to a behavior without eliminating the behavior itself. We formulate this vulnerability as post-intervention recovery, a constrained residual-space optimization problem. Starting from the post-intervention residual state, we optimize residual perturbations to recover the pre-intervention behavior while preserving the post-intervention values of the targeted SAE features. Even under a strong threat model where the intervention remains active throughout optimization and generation, recovery remains possible. To rule out that recovery simply undoes the intervention, we use encoder-orthogonal updates for single-layer interventions and the corresponding feature-map Jacobian in the cross-layer setting. Across TPP, unlearning, IOI, and refusal steering experiments, this stress test reveals recoverable behavior despite successful feature-level intervention. Especially in the safety-critical refusal-steering setting, we achieve a 95.8% recovery rate on valid samples while keeping defended-feature relative drift to 0.131, substantially below suffix-based baselines. A recovery-path attribution analysis further localizes this recovery to the SAE reconstruction residual, the component left unexplained by the SAE. These results expose a gap between feature-level control and behavioral completeness: SAE features can support causal intervention, but controlling them does not guarantee control over the underlying behavior.