Modulation neuronale ciblée via recherche de paires contrastives

Résumé

Les modèles de langage sont ajustés par instructions pour refuser les demandes nuisibles, mais les mécanismes sous-jacents à ce comportement restent mal compris. Les méthodes de guidage courantes opèrent sur le flux résiduel et dégradent la cohérence des sorties à des intensités d'intervention élevées, limitant leur utilisation pratique. Nous introduisons l'attribution neuronale contrastive (CNA), qui identifie les 0,1 % des neurones MLP dont les activations distinguent le plus les invites nuisibles des invites bénignes, ne nécessitant que des passages avant, sans gradients ni entraînement auxiliaire. Dans les modèles d'instruction, l'ablation du circuit découvert réduit les taux de refus de plus de 50 % sur un benchmark standard de jailbreak tout en préservant la fluidité et la non-dégénérescence à toutes les intensités de guidage. En appliquant la CNA à des modèles de base et d'instruction appariés, sur les architectures Llama et Qwen (de 1 à 72 milliards de paramètres), nous constatons que les modèles de base contiennent des structures de discrimination tardives similaires, mais que le guidage de ces neurones ne produit que des changements de contenu, et non des changements comportementaux. Ces résultats démontrent que l'intervention au niveau neuronal permet un guidage comportemental fiable sans les compromis de qualité des méthodes basées sur le flux résiduel. Plus largement, nos résultats suggèrent que le réglage fin par alignement transforme une structure de discrimination préexistante en une porte de refus éparse et ciblable.

English

Language models are instruction-tuned to refuse harmful requests, but the mechanisms underlying this behavior remain poorly understood. Popular steering methods operate on the residual stream and degrade output coherence at high intervention strengths, limiting their practical use. We introduce contrastive neuron attribution (CNA), which identifies the 0.1% of MLP neurons whose activations most distinguish harmful from benign prompts, requiring only forward passes with no gradients or auxiliary training. In instruct models, ablating the discovered circuit reduces refusal rates by over 50% on a standard jailbreak benchmark while preserving fluency and non-degeneracy across all steering strengths. Applying CNA to matched base and instruct models across Llama and Qwen architectures (from 1B to 72B parameters), we find that base models contain similar late-layer discrimination structures but steering these neurons produces only content shifts, not behavioral change. These results demonstrate that neuron-level intervention enables reliable behavioral steering without the quality tradeoffs of residual-stream methods. More broadly, our findings suggest that alignment fine-tuning transforms pre-existing discrimination structure into a sparse, targetable refusal gate.