Gerichte neuronmodulatie via contrastief paar zoeken

Samenvatting

Taalmodellen worden instructie-afgestemd om schadelijke verzoeken te weigeren, maar de onderliggende mechanismen van dit gedrag worden nog steeds slecht begrepen. Populaire sturingsmethoden werken op de residustroom en verslechteren de coherentie van de output bij hoge sturingssterktes, wat hun praktische gebruik beperkt. Wij introduceren contrastieve neuronattributie (CNA), die de 0,1% van de MLP-neuronen identificeert waarvan de activaties het meest onderscheid maken tussen schadelijke en onschuldige prompts, waarbij alleen forward passes nodig zijn zonder gradiënten of hulptraining. In instructiemodellen verlaagt het ablateren van het ontdekte circuit de weigeringspercentages met meer dan 50% op een standaard jailbreak-benchmark, terwijl vloeiendheid en niet-degeneratie behouden blijven bij alle sturingssterktes. Door CNA toe te passen op gematchte basis- en instructiemodellen over Llama- en Qwen-architecturen (van 1B tot 72B parameters), vinden we dat basismodellen vergelijkbare laat-laag discriminatiestructuren bevatten, maar het sturen van deze neuronen leidt alleen tot inhoudelijke verschuivingen, niet tot gedragsverandering. Deze resultaten tonen aan dat interventie op neuronniveau betrouwbare gedragssturing mogelijk maakt zonder de kwaliteitsafwegingen van methoden op basis van de residustroom. In bredere zin suggereren onze bevindingen dat afstemmingsfinetuning bestaande discriminatiestructuur omzet in een spaarzame, aanwijsbare weigeringspoort.

English

Language models are instruction-tuned to refuse harmful requests, but the mechanisms underlying this behavior remain poorly understood. Popular steering methods operate on the residual stream and degrade output coherence at high intervention strengths, limiting their practical use. We introduce contrastive neuron attribution (CNA), which identifies the 0.1% of MLP neurons whose activations most distinguish harmful from benign prompts, requiring only forward passes with no gradients or auxiliary training. In instruct models, ablating the discovered circuit reduces refusal rates by over 50% on a standard jailbreak benchmark while preserving fluency and non-degeneracy across all steering strengths. Applying CNA to matched base and instruct models across Llama and Qwen architectures (from 1B to 72B parameters), we find that base models contain similar late-layer discrimination structures but steering these neurons produces only content shifts, not behavioral change. These results demonstrate that neuron-level intervention enables reliable behavioral steering without the quality tradeoffs of residual-stream methods. More broadly, our findings suggest that alignment fine-tuning transforms pre-existing discrimination structure into a sparse, targetable refusal gate.