Целевая модуляция нейронов посредством поиска контрастивных пар

Аннотация

Языковые модели настраиваются с помощью инструкций для отказа от вредоносных запросов, однако механизмы, лежащие в основе этого поведения, остаются плохо изученными. Популярные методы управления работают с остаточным потоком и ухудшают связность вывода при высоких уровнях вмешательства, что ограничивает их практическое применение. Мы представляем контрастивную атрибуцию нейронов (CNA), которая идентифицирует 0,1% MLP-нейронов, чьи активации наиболее различают вредоносные и безвредные запросы, требуя только прямых проходов без градиентов или вспомогательного обучения. В инструктивных моделях абляция обнаруженной схемы снижает показатели отказа более чем на 50% на стандартном джейлбрейк-бенчмарке, сохраняя при этом беглость и невырожденность при всех уровнях управления. Применяя CNA к сопоставленным базовым и инструктивным моделям в архитектурах Llama и Qwen (от 1 млрд до 72 млрд параметров), мы обнаруживаем, что базовые модели содержат сходные структуры дискриминации на поздних слоях, однако управление этими нейронами приводит только к смещениям содержания, а не к поведенческому изменению. Эти результаты демонстрируют, что вмешательство на уровне нейронов обеспечивает надежное управление поведением без компромиссов по качеству, присущих методам, основанным на остаточном потоке. В более широком смысле наши результаты указывают на то, что тонкая настройка выравнивания преобразует предсуществующую структуру дискриминации в разреженный целенаправленный отказной затвор.

English

Language models are instruction-tuned to refuse harmful requests, but the mechanisms underlying this behavior remain poorly understood. Popular steering methods operate on the residual stream and degrade output coherence at high intervention strengths, limiting their practical use. We introduce contrastive neuron attribution (CNA), which identifies the 0.1% of MLP neurons whose activations most distinguish harmful from benign prompts, requiring only forward passes with no gradients or auxiliary training. In instruct models, ablating the discovered circuit reduces refusal rates by over 50% on a standard jailbreak benchmark while preserving fluency and non-degeneracy across all steering strengths. Applying CNA to matched base and instruct models across Llama and Qwen architectures (from 1B to 72B parameters), we find that base models contain similar late-layer discrimination structures but steering these neurons produces only content shifts, not behavioral change. These results demonstrate that neuron-level intervention enables reliable behavioral steering without the quality tradeoffs of residual-stream methods. More broadly, our findings suggest that alignment fine-tuning transforms pre-existing discrimination structure into a sparse, targetable refusal gate.