Modulación Neuronal Dirigida mediante Búsqueda de Pares Contrastivos

Resumen

Los modelos de lenguaje se ajustan mediante instrucciones para rechazar solicitudes dañinas, pero los mecanismos subyacentes a este comportamiento aún no se comprenden bien. Los métodos de dirección populares operan sobre el flujo residual y degradan la coherencia de la salida con intensidades de intervención altas, lo que limita su uso práctico. Introducimos la atribución contrastiva de neuronas (CNA), que identifica el 0.1% de las neuronas MLP cuyas activaciones distinguen más claramente entre indicaciones dañinas y benignas, requiriendo solo pasos hacia adelante sin gradientes ni entrenamiento auxiliar. En modelos instructivos, la ablación del circuito descubierto reduce las tasas de rechazo en más del 50% en un benchmark estándar de jailbreak, manteniendo la fluidez y la no degeneración en todas las intensidades de dirección. Aplicando CNA a modelos base e instructivos emparejados en las arquitecturas Llama y Qwen (desde 1B hasta 72B parámetros), encontramos que los modelos base contienen estructuras de discriminación en capas tardías similares, pero dirigir estas neuronas produce solo cambios de contenido, no cambios de comportamiento. Estos resultados demuestran que la intervención a nivel de neuronas permite una dirección conductual fiable sin las compensaciones de calidad de los métodos de flujo residual. En términos más amplios, nuestros hallazgos sugieren que el ajuste fino de alineación transforma la estructura de discriminación preexistente en una puerta de rechazo escasa y dirigible.

English

Language models are instruction-tuned to refuse harmful requests, but the mechanisms underlying this behavior remain poorly understood. Popular steering methods operate on the residual stream and degrade output coherence at high intervention strengths, limiting their practical use. We introduce contrastive neuron attribution (CNA), which identifies the 0.1% of MLP neurons whose activations most distinguish harmful from benign prompts, requiring only forward passes with no gradients or auxiliary training. In instruct models, ablating the discovered circuit reduces refusal rates by over 50% on a standard jailbreak benchmark while preserving fluency and non-degeneracy across all steering strengths. Applying CNA to matched base and instruct models across Llama and Qwen architectures (from 1B to 72B parameters), we find that base models contain similar late-layer discrimination structures but steering these neurons produces only content shifts, not behavioral change. These results demonstrate that neuron-level intervention enables reliable behavioral steering without the quality tradeoffs of residual-stream methods. More broadly, our findings suggest that alignment fine-tuning transforms pre-existing discrimination structure into a sparse, targetable refusal gate.