C-ΔΘ: Aritmetica Ponderale a Circuito Ristretto per il Rifiuto Selettivo

Abstract

Le implementazioni moderne richiedono ai LLM di applicare politiche di sicurezza su larga scala, eppure molti controlli si basano su interventi in fase di inferenza che aggiungono costi computazionali ricorrenti e complessità operativa. Lo steering delle attivazioni è ampiamente utilizzato, ma richiede hook in runtime e scala i costi con il numero di generazioni; le varianti condizionali migliorano la selettività regolando l'applicazione dello steering, ma mantengono comunque un percorso di controllo in fase di inferenza. Ci chiediamo se il rifiuto selettivo possa essere spostato completamente offline: è possibile distillare una comprensione meccanicistica del rifiuto specifico per categoria in un aggiornamento dei pesi, limitato a un circuito, che si distribuisca come un checkpoint standard? Proponiamo C-Δθ: Circuit Restricted Weight Arithmetic, che (i) localizza il calcolo causale del rifiuto come un circuito sparso utilizzando EAP-IG e (ii) calcola un aggiornamento vincolato dei pesi ΔθC supportato solo su quel circuito (tipicamente <5% dei parametri). L'applicazione di ΔθC produce un checkpoint modificato "drop-in" senza hook in fase di inferenza, spostando il costo dall'intervento per richiesta a un aggiornamento offline una tantum. Valutiamo la selettività mirata per categoria e la conservazione delle capacità su benchmark di rifiuto e utilità.

English

Modern deployments require LLMs to enforce safety policies at scale, yet many controls rely on inference-time interventions that add recurring compute cost and serving complexity. Activation steering is widely used, but it requires runtime hooks and scales cost with the number of generations; conditional variants improve selectivity by gating when steering is applied but still retain an inference-time control path. We ask whether selective refusal can be moved entirely offline: can a mechanistic understanding of category-specific refusal be distilled into a circuit-restricted weight update that deploys as a standard checkpoint? We propose C-Δθ: Circuit Restricted Weight Arithmetic, which (i) localizes refusal-causal computation as a sparse circuit using EAP-IG and (ii) computes a constrained weight update ΔθC supported only on that circuit (typically <5% of parameters). Applying ΔθC yields a drop-in edited checkpoint with no inference-time hooks, shifting cost from per-request intervention to a one-time offline update. We evaluate category-targeted selectivity and capability retention on refusal and utility benchmarks.

C-ΔΘ: Aritmetica Ponderale a Circuito Ristretto per il Rifiuto Selettivo

C-ΔΘ: Circuit-Restricted Weight Arithmetic for Selective Refusal

Abstract

Support