C-ΔΘ: Schaltkreisbeschränkte Gewichtsarithmetik für selektive Verweigerung
C-ΔΘ: Circuit-Restricted Weight Arithmetic for Selective Refusal
February 4, 2026
papers.authors: Aditya Kasliwal, Pratinav Seth, Vinay Kumar Sankarapu
cs.AI
papers.abstract
Moderne Bereitstellungen erfordern, dass LLMs Sicherheitsrichtlinien in großem Maßstab durchsetzen, doch viele Kontrollmechanismen stützen sich auf Eingriffe zur Inferenzzeit, die wiederkehrende Rechenkosten und Komplexität beim Bereitstellen verursachen. Aktivierungssteuerung wird häufig eingesetzt, erfordert jedoch Laufzeit-Hooks und skaliert die Kosten mit der Anzahl der Generationen; konditionale Varianten verbessern die Selektivität, indem sie steuern, wann die Steuerung angewendet wird, behalten aber dennoch einen Kontrollpfad zur Inferenzzeit bei. Wir fragen, ob selektive Verweigerung vollständig offline verlagert werden kann: Kann ein mechanistisches Verständnis kategoriespezifischer Verweigerung in ein schaltkreisbeschränktes Gewichts-Update destilliert werden, das als Standard-Checkpoint bereitgestellt wird? Wir schlagen C-Δθ vor: Schaltkreisbeschränkte Gewichtsarithmetik, die (i) verweigerungsverursachende Berechnungen als sparsamen Schaltkreis unter Verwendung von EAP-IG lokalisiert und (ii) ein eingeschränktes Gewichts-Update ΔθC berechnet, das nur auf diesem Schaltkreis unterstützt wird (typischerweise <5 % der Parameter). Die Anwendung von ΔθC ergibt einen direkt einsetzbaren, bearbeiteten Checkpoint ohne Laufzeit-Hooks, der die Kosten von einer Eingriff pro Anfrage auf ein einmaliges Offline-Update verlagert. Wir evaluieren kategoriebezogene Selektivität und Fähigkeitserhalt auf Verweigerungs- und Nutzlast-Benchmarks.
English
Modern deployments require LLMs to enforce safety policies at scale, yet many controls rely on inference-time interventions that add recurring compute cost and serving complexity. Activation steering is widely used, but it requires runtime hooks and scales cost with the number of generations; conditional variants improve selectivity by gating when steering is applied but still retain an inference-time control path. We ask whether selective refusal can be moved entirely offline: can a mechanistic understanding of category-specific refusal be distilled into a circuit-restricted weight update that deploys as a standard checkpoint? We propose C-Δθ: Circuit Restricted Weight Arithmetic, which (i) localizes refusal-causal computation as a sparse circuit using EAP-IG and (ii) computes a constrained weight update ΔθC supported only on that circuit (typically <5% of parameters). Applying ΔθC yields a drop-in edited checkpoint with no inference-time hooks, shifting cost from per-request intervention to a one-time offline update. We evaluate category-targeted selectivity and capability retention on refusal and utility benchmarks.