C-ΔΘ: Circuit-beperkte gewichtsberekening voor selectieve weigering

Samenvatting

Moderne implementaties vereisen dat grote taalmodellen (LLM's) veiligheidsbeleid op schaal handhaven, maar veel controles zijn afhankelijk van interventies tijdens de inferentie die terugkerende rekenkosten en complexiteit in de dienstverlening met zich meebrengen. Sturing van activeringen wordt veel gebruikt, maar vereist runtime-hooks en schaalt de kosten met het aantal gegenereerde outputs; conditionele varianten verbeteren de selectiviteit door sturing te conditioneren, maar behouden nog steeds een controlepad tijdens de inferentie. Wij onderzoeken of selectieve weigering volledig offline kan worden verplaatst: kan een mechanistisch begrip van categorie-specifieke weigering worden gedistilleerd tot een gewichtsupdate die beperkt is tot een specifiek circuit en kan worden geïmplementeerd als een standaard checkpoint? Wij stellen C-Δθ voor: Circuit Restricted Weight Arithmetic, dat (i) weigeringscausale berekening lokaliseert als een spaarzaam circuit met behulp van EAP-IG en (ii) een beperkte gewichtsupdate ΔθC berekent die alleen op dat circuit wordt toegepast (meestal <5% van de parameters). Het toepassen van ΔθC resulteert in een direct bruikbaar, bewerkt checkpoint zonder runtime-hooks, waardoor de kosten worden verschoven van interventie per aanvraag naar een eenmalige offline update. Wij evalueren categorie-gerichte selectiviteit en het behoud van capaciteiten op weigerings- en functionaliteitsbenchmarks.

English

Modern deployments require LLMs to enforce safety policies at scale, yet many controls rely on inference-time interventions that add recurring compute cost and serving complexity. Activation steering is widely used, but it requires runtime hooks and scales cost with the number of generations; conditional variants improve selectivity by gating when steering is applied but still retain an inference-time control path. We ask whether selective refusal can be moved entirely offline: can a mechanistic understanding of category-specific refusal be distilled into a circuit-restricted weight update that deploys as a standard checkpoint? We propose C-Δθ: Circuit Restricted Weight Arithmetic, which (i) localizes refusal-causal computation as a sparse circuit using EAP-IG and (ii) computes a constrained weight update ΔθC supported only on that circuit (typically <5% of parameters). Applying ΔθC yields a drop-in edited checkpoint with no inference-time hooks, shifting cost from per-request intervention to a one-time offline update. We evaluate category-targeted selectivity and capability retention on refusal and utility benchmarks.

C-ΔΘ: Circuit-beperkte gewichtsberekening voor selectieve weigering

C-ΔΘ: Circuit-Restricted Weight Arithmetic for Selective Refusal

Samenvatting

Support