Modulação Neuronal Direcionada via Busca de Pares Contrastivos

Resumo

Modelos de linguagem são ajustados por instruções para recusar solicitações prejudiciais, mas os mecanismos subjacentes a esse comportamento ainda são pouco compreendidos. Métodos populares de direcionamento operam no fluxo residual e degradam a coerência da saída em altas intensidades de intervenção, limitando seu uso prático. Apresentamos a atribuição contrastiva de neurônios (CNA), que identifica os 0,1% dos neurônios MLP cujas ativações mais diferenciam prompts prejudiciais de benéficos, exigindo apenas passagens diretas, sem gradientes ou treinamento auxiliar. Em modelos instruídos, a ablação do circuito descoberto reduz as taxas de recusa em mais de 50% em um benchmark padrão de jailbreak, preservando fluência e não-degenerescência em todas as intensidades de direcionamento. Aplicando CNA a modelos base e instruídos correspondentes nas arquiteturas Llama e Qwen (de 1B a 72B parâmetros), descobrimos que modelos base contêm estruturas de discriminação similares em camadas tardias, mas o direcionamento desses neurônios produz apenas mudanças de conteúdo, não alterações comportamentais. Esses resultados demonstram que a intervenção em nível de neurônio possibilita um direcionamento comportamental confiável sem as trocas de qualidade dos métodos de fluxo residual. De forma mais ampla, nossas descobertas sugerem que o ajuste fino de alinhamento transforma a estrutura de discriminação pré-existente em uma porta de recusa esparsa e direcionável.

English

Language models are instruction-tuned to refuse harmful requests, but the mechanisms underlying this behavior remain poorly understood. Popular steering methods operate on the residual stream and degrade output coherence at high intervention strengths, limiting their practical use. We introduce contrastive neuron attribution (CNA), which identifies the 0.1% of MLP neurons whose activations most distinguish harmful from benign prompts, requiring only forward passes with no gradients or auxiliary training. In instruct models, ablating the discovered circuit reduces refusal rates by over 50% on a standard jailbreak benchmark while preserving fluency and non-degeneracy across all steering strengths. Applying CNA to matched base and instruct models across Llama and Qwen architectures (from 1B to 72B parameters), we find that base models contain similar late-layer discrimination structures but steering these neurons produces only content shifts, not behavioral change. These results demonstrate that neuron-level intervention enables reliable behavioral steering without the quality tradeoffs of residual-stream methods. More broadly, our findings suggest that alignment fine-tuning transforms pre-existing discrimination structure into a sparse, targetable refusal gate.