ChatPaper.aiChatPaper

C-ΔΘ: Схемно-ограниченная весовая арифметика для селективного отказа

C-ΔΘ: Circuit-Restricted Weight Arithmetic for Selective Refusal

February 4, 2026
Авторы: Aditya Kasliwal, Pratinav Seth, Vinay Kumar Sankarapu
cs.AI

Аннотация

Современные системы развертывания требуют от больших языковых моделей (LLM) обеспечения политик безопасности в масштабе, однако многие методы контроля полагаются на вмешательства во время инференса, что увеличивает повторяющиеся вычислительные затраты и усложняет обслуживание. Управление через активации широко используется, но требует runtime-перехватчиков и масштабирует затраты с ростом количества генераций; условные варианты повышают избирательность за счет применения управления только в определенных случаях, но сохраняют путь контроля во время инференса. Мы исследуем, можно ли полностью перенести селективный отказ в офлайн-режим: возможно ли distill механистическое понимание категориально-специфичного отказа в обновление весов, ограниченное схемой (circuit), которое развертывается как стандартный чекпоинт? Мы предлагаем C-Δθ: Арифметику Весов с Ограничением на Схему, которая (i) локализует вычисления, ответственные за отказ, в виде разреженной схемы с помощью EAP-IG и (ii) вычисляет ограниченное обновление весов ΔθC, поддерживаемое только в рамках этой схемы (обычно <5% параметров). Применение ΔθC дает готовый отредактированный чекпоинт без runtime-перехватчиков, перенося затраты с вмешательства на каждый запрос на единоразовое офлайн-обновление. Мы оцениваем селективность, нацеленную на категории, и сохранение возможностей на бенчмарках отказа и полезности.
English
Modern deployments require LLMs to enforce safety policies at scale, yet many controls rely on inference-time interventions that add recurring compute cost and serving complexity. Activation steering is widely used, but it requires runtime hooks and scales cost with the number of generations; conditional variants improve selectivity by gating when steering is applied but still retain an inference-time control path. We ask whether selective refusal can be moved entirely offline: can a mechanistic understanding of category-specific refusal be distilled into a circuit-restricted weight update that deploys as a standard checkpoint? We propose C-Δθ: Circuit Restricted Weight Arithmetic, which (i) localizes refusal-causal computation as a sparse circuit using EAP-IG and (ii) computes a constrained weight update ΔθC supported only on that circuit (typically <5% of parameters). Applying ΔθC yields a drop-in edited checkpoint with no inference-time hooks, shifting cost from per-request intervention to a one-time offline update. We evaluate category-targeted selectivity and capability retention on refusal and utility benchmarks.
PDF11February 12, 2026