Como os Caminhos de Alinhamento: Localizando, Dimensionando e Controlando Circuitos de Política em Modelos de Linguagem

Resumo

Este artigo localiza o mecanismo de roteamento de políticas em modelos de linguagem treinados para alinhamento. Um portão de atenção em uma camada intermediária lê o conteúdo detectado e aciona cabeças amplificadoras mais profundas que impulsionam o sinal em direção à recusa. Em modelos menores, o portão e o amplificador são cabeças únicas; em escalas maiores, eles se tornam faixas de cabeças através de camadas adjacentes. O portão contribui com menos de 1% do DLA de saída, mas testes de intercâmbio (p<0,001) e cascata de nocaute confirmam que ele é causalmente necessário. A triagem por intercâmbio em n>=120 detecta o mesmo motivo em doze modelos de seis laboratórios (2B a 72B), embora as cabeças específicas difiram por laboratório. A ablação por cabeça enfraquece até 58x no modelo de 72B e não detecta portões que o intercâmbio identifica; o intercâmbio é a única auditoria confiável em escala. Modular o sinal da camada de detecção controla continuamente a política, desde a recusa rígida passando pela evasão até a resposta factual. Em *prompts* de segurança, a mesma intervenção transforma a recusa em orientação prejudicial, mostrando que a capacidade treinada para segurança é controlada por roteamento em vez de removida. Os limiares variam por tópico e por idioma de entrada, e o circuito se realoca entre gerações dentro de uma família, enquanto os benchmarks comportamentais não registram mudança. O roteamento é de comprometimento precoce: o portão se compromete em sua própria camada antes que as camadas mais profundas terminem de processar a entrada. Sob uma cifra de substituição *in-context*, a necessidade de intercâmbio do portão colapsa de 70% a 99% em três modelos e o modelo muda para a resolução do quebra-cabeça. A injeção da ativação do portão do texto simples no *forward pass* da cifra restaura 48% das recusas no Phi-4-mini, localizando o desvio na interface de roteamento. Um segundo método, a análise de contraste de cifra, usa diferenças de DLA entre texto simples e cifrado para mapear o circuito completo de roteamento sensível à cifra em O(3n) *forward passes*. Qualquer codificação que derrote a correspondência de padrões na camada de detecção ignora a política, independentemente de as camadas mais profundas reconstruírem o conteúdo ou não.

English

This paper localizes the policy routing mechanism in alignment-trained language models. An intermediate-layer attention gate reads detected content and triggers deeper amplifier heads that boost the signal toward refusal. In smaller models the gate and amplifier are single heads; at larger scale they become bands of heads across adjacent layers. The gate contributes under 1% of output DLA, but interchange testing (p<0.001) and knockout cascade confirm it is causally necessary. Interchange screening at n>=120 detects the same motif in twelve models from six labs (2B to 72B), though specific heads differ by lab. Per-head ablation weakens up to 58x at 72B and misses gates that interchange identifies; interchange is the only reliable audit at scale. Modulating the detection-layer signal continuously controls policy from hard refusal through evasion to factual answering. On safety prompts the same intervention turns refusal into harmful guidance, showing the safety-trained capability is gated by routing rather than removed. Thresholds vary by topic and by input language, and the circuit relocates across generations within a family while behavioral benchmarks register no change. Routing is early-commitment: the gate commits at its own layer before deeper layers finish processing the input. Under an in-context substitution cipher, gate interchange necessity collapses 70 to 99% across three models and the model switches to puzzle-solving. Injecting the plaintext gate activation into the cipher forward pass restores 48% of refusals in Phi-4-mini, localizing the bypass to the routing interface. A second method, cipher contrast analysis, uses plain/cipher DLA differences to map the full cipher-sensitive routing circuit in O(3n) forward passes. Any encoding that defeats detection-layer pattern matching bypasses the policy regardless of whether deeper layers reconstruct the content.

Como os Caminhos de Alinhamento: Localizando, Dimensionando e Controlando Circuitos de Política em Modelos de Linguagem

How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models

Resumo

Support