ChatPaper.aiChatPaper

C-ΔΘ: Aritmética de Pesos Restringida por Circuitos para Rechazo Selectivo

C-ΔΘ: Circuit-Restricted Weight Arithmetic for Selective Refusal

February 4, 2026
Autores: Aditya Kasliwal, Pratinav Seth, Vinay Kumar Sankarapu
cs.AI

Resumen

Los despliegues modernos requieren que los LLM apliquen políticas de seguridad a escala; sin embargo, muchos controles se basan en intervenciones en tiempo de inferencia que añaden costes recurrentes de computación y complejidad en el servicio. La dirección de activaciones se usa ampliamente, pero requiere *hooks* en tiempo de ejecución y su coste escala con el número de generaciones; las variantes condicionales mejoran la selectividad mediante compuertas que deciden cuándo aplicar la dirección, pero aún mantienen una ruta de control en tiempo de inferencia. Nos preguntamos si la negativa selectiva puede trasladarse completamente fuera de línea: ¿puede una comprensión mecanicista de la negativa específica por categoría destilarse en una actualización de pesos restringida a un circuito que se despliegue como un *checkpoint* estándar? Proponemos C-Δθ: Aritmética de Pesos con Restricción de Circuito, que (i) localiza el cómputo causal de la negativa como un circuito disperso usando EAP-IG e (ii) calcula una actualización de pesos restringida ΔθC soportada únicamente en ese circuito (típicamente <5% de los parámetros). Aplicar ΔθC produce un *checkpoint* editado de sustitución directa, sin *hooks* en tiempo de inferencia, trasladando el coste de una intervención por petición a una actualización única fuera de línea. Evaluamos la selectividad dirigida por categoría y la retención de capacidades en benchmarks de negativa y utilidad.
English
Modern deployments require LLMs to enforce safety policies at scale, yet many controls rely on inference-time interventions that add recurring compute cost and serving complexity. Activation steering is widely used, but it requires runtime hooks and scales cost with the number of generations; conditional variants improve selectivity by gating when steering is applied but still retain an inference-time control path. We ask whether selective refusal can be moved entirely offline: can a mechanistic understanding of category-specific refusal be distilled into a circuit-restricted weight update that deploys as a standard checkpoint? We propose C-Δθ: Circuit Restricted Weight Arithmetic, which (i) localizes refusal-causal computation as a sparse circuit using EAP-IG and (ii) computes a constrained weight update ΔθC supported only on that circuit (typically <5% of parameters). Applying ΔθC yields a drop-in edited checkpoint with no inference-time hooks, shifting cost from per-request intervention to a one-time offline update. We evaluate category-targeted selectivity and capability retention on refusal and utility benchmarks.
PDF11February 12, 2026