ChatPaper.aiChatPaper

C-ΔΘ: Aritmética de Pesos com Restrição de Circuito para Recusa Seletiva

C-ΔΘ: Circuit-Restricted Weight Arithmetic for Selective Refusal

February 4, 2026
Autores: Aditya Kasliwal, Pratinav Seth, Vinay Kumar Sankarapu
cs.AI

Resumo

As implantações modernas exigem que os LLMs apliquem políticas de segurança em escala, mas muitos controles dependem de intervenções no momento da inferência, que adicionam custos recorrentes de computação e complexidade no serviço. A orientação por ativação é amplamente utilizada, mas requer *hooks* em tempo de execução e escala o custo com o número de gerações; variantes condicionais melhoram a seletividade ao controlar quando a orientação é aplicada, mas ainda mantêm um caminho de controle em tempo de inferência. Perguntamo-nos se a recusa seletiva pode ser movida inteiramente para *offline*: será que uma compreensão mecanicista da recusa específica por categoria pode ser destilada numa atualização de pesos restrita a circuitos que seja implantada como um *checkpoint* padrão? Propomos C-Δθ: Aritmética de Pesos com Restrição de Circuito, que (i) localiza a computação causal da recusa como um circuito esparso usando EAP-IG e (ii) calcula uma atualização de pesos restrita ΔθC suportada apenas nesse circuito (tipicamente <5% dos parâmetros). A aplicação de ΔθC produz um *checkpoint* editado de substituição direta, sem *hooks* em tempo de inferência, transferindo o custo da intervenção por solicitação para uma atualização única e offline. Avaliamos a seletividade direcionada por categoria e a retenção de capacidade em benchmarks de recusa e utilidade.
English
Modern deployments require LLMs to enforce safety policies at scale, yet many controls rely on inference-time interventions that add recurring compute cost and serving complexity. Activation steering is widely used, but it requires runtime hooks and scales cost with the number of generations; conditional variants improve selectivity by gating when steering is applied but still retain an inference-time control path. We ask whether selective refusal can be moved entirely offline: can a mechanistic understanding of category-specific refusal be distilled into a circuit-restricted weight update that deploys as a standard checkpoint? We propose C-Δθ: Circuit Restricted Weight Arithmetic, which (i) localizes refusal-causal computation as a sparse circuit using EAP-IG and (ii) computes a constrained weight update ΔθC supported only on that circuit (typically <5% of parameters). Applying ΔθC yields a drop-in edited checkpoint with no inference-time hooks, shifting cost from per-request intervention to a one-time offline update. We evaluate category-targeted selectivity and capability retention on refusal and utility benchmarks.
PDF12March 19, 2026