Gezielte Neuromodulation durch kontrastive Paarsuche

Zusammenfassung

Sprachmodelle werden durch Instruction-Tuning darauf trainiert, schädliche Anfragen abzulehnen, aber die zugrundeliegenden Mechanismen dieses Verhaltens sind noch wenig verstanden. Gängige Steuerungsmethoden greifen in den Residualstrom ein und verschlechtern bei hohen Interventionsstärken die Kohärenz der Ausgabe, was ihren praktischen Nutzen einschränkt. Wir stellen die kontrastive Neuronenzuschreibung (CNA) vor, die die 0,1 % der MLP-Neuronen identifiziert, deren Aktivierungen am stärksten zwischen schädlichen und harmlosen Eingabeaufforderungen unterscheiden; dabei werden nur Vorwärtsdurchläufe benötigt, ohne Gradienten oder zusätzliches Training. In Instruct-Modellen reduziert die Ablation des entdeckten Schaltkreises die Ablehnungsraten um über 50 % in einem standardisierten Jailbreak-Benchmark, während die Flüssigkeit und Nicht-Degeneriertheit bei allen Steuerungsstärken erhalten bleiben. Bei Anwendung von CNA auf gepaarte Basis- und Instruct-Modelle der Llama- und Qwen-Architekturen (von 1B bis 72B Parameter) stellen wir fest, dass Basismodelle ähnliche spätschichtige Diskriminationsstrukturen aufweisen, aber die Steuerung dieser Neuronen führt nur zu Inhaltsverschiebungen, nicht zu Verhaltensänderungen. Diese Ergebnisse zeigen, dass Interventionen auf Neuron-Ebene eine zuverlässige Verhaltenssteuerung ermöglichen, ohne die Qualitätseinbußen von Residualstrom-Methoden. Im weiteren Sinne deuten unsere Ergebnisse darauf hin, dass Alignment-Feintuning eine bereits vorhandene Diskriminationsstruktur in ein spärliches, gezielt adressierbares Ablehnungs-Gatter umwandelt.

English

Language models are instruction-tuned to refuse harmful requests, but the mechanisms underlying this behavior remain poorly understood. Popular steering methods operate on the residual stream and degrade output coherence at high intervention strengths, limiting their practical use. We introduce contrastive neuron attribution (CNA), which identifies the 0.1% of MLP neurons whose activations most distinguish harmful from benign prompts, requiring only forward passes with no gradients or auxiliary training. In instruct models, ablating the discovered circuit reduces refusal rates by over 50% on a standard jailbreak benchmark while preserving fluency and non-degeneracy across all steering strengths. Applying CNA to matched base and instruct models across Llama and Qwen architectures (from 1B to 72B parameters), we find that base models contain similar late-layer discrimination structures but steering these neurons produces only content shifts, not behavioral change. These results demonstrate that neuron-level intervention enables reliable behavioral steering without the quality tradeoffs of residual-stream methods. More broadly, our findings suggest that alignment fine-tuning transforms pre-existing discrimination structure into a sparse, targetable refusal gate.