C-ΔΘ : Arithmétique pondérée à circuit restreint pour le refus sélectif
C-ΔΘ: Circuit-Restricted Weight Arithmetic for Selective Refusal
February 4, 2026
papers.authors: Aditya Kasliwal, Pratinav Seth, Vinay Kumar Sankarapu
cs.AI
papers.abstract
Les déploiements modernes exigent que les LLM appliquent des politiques de sécurité à grande échelle, mais de nombreux contrôles reposent sur des interventions au moment de l'inférence qui ajoutent des coûts de calcul récurrents et une complexité de service. Le pilotage par activation est largement utilisé, mais il nécessite des hooks d'exécution et son coût augmente avec le nombre de générations ; les variantes conditionnelles améliorent la sélectivité en conditionnant l'application du pilotage, mais conservent néanmoins un chemin de contrôle à l'inférence. Nous nous demandons si le refus sélectif peut être entièrement déplacé hors ligne : une compréhension mécanistique du refus spécifique à une catégorie peut-elle être distillée en une mise à jour des poids restreinte à un circuit, qui se déploie comme un point de contrôle standard ? Nous proposons C-Δθ : l'arithmétique des poids restreinte au circuit, qui (i) localise le calcul causal du refus sous la forme d'un circuit parcimonieux en utilisant EAP-IG et (ii) calcule une mise à jour contrainte des poids ΔθC supportée uniquement sur ce circuit (généralement <5 % des paramètres). L'application de ΔθC produit un point de contrôle modifié prêt à l'emploi sans hooks d'inférence, déplaçant le coût d'une intervention par requête vers une mise à jour hors ligne unique. Nous évaluons la sélectivité ciblée par catégorie et la rétention des capacités sur des benchmarks de refus et d'utilité.
English
Modern deployments require LLMs to enforce safety policies at scale, yet many controls rely on inference-time interventions that add recurring compute cost and serving complexity. Activation steering is widely used, but it requires runtime hooks and scales cost with the number of generations; conditional variants improve selectivity by gating when steering is applied but still retain an inference-time control path. We ask whether selective refusal can be moved entirely offline: can a mechanistic understanding of category-specific refusal be distilled into a circuit-restricted weight update that deploys as a standard checkpoint? We propose C-Δθ: Circuit Restricted Weight Arithmetic, which (i) localizes refusal-causal computation as a sparse circuit using EAP-IG and (ii) computes a constrained weight update ΔθC supported only on that circuit (typically <5% of parameters). Applying ΔθC yields a drop-in edited checkpoint with no inference-time hooks, shifting cost from per-request intervention to a one-time offline update. We evaluate category-targeted selectivity and capability retention on refusal and utility benchmarks.