Cómo se Alinean las Rutas: Localización, Escalado y Control de Circuitos de Política en Modelos de Lenguaje

Resumen

Este artículo localiza el mecanismo de enrutamiento de políticas en modelos de lenguaje entrenados para la alineación. Una compuerta de atención en una capa intermedia lee el contenido detectado y activa cabezales amplificadores más profundos que potencian la señal hacia la respuesta de rechazo. En modelos más pequeños, la compuerta y el amplificador son cabezales únicos; a mayor escala, se convierten en bandas de cabezales distribuidos en capas adyacentes. La compuerta contribuye con menos del 1% a la DLA de salida, pero las pruebas de intercambio (p<0.001) y la cascada de knockout confirman que es causalmente necesaria. Un cribado por intercambio en n>=120 detecta el mismo motivo en doce modelos de seis laboratorios (de 2B a 72B), aunque los cabezales específicos difieren según el laboratorio. La ablación por cabezal debilita la respuesta hasta 58 veces en el modelo de 72B y pasa por alto compuertas que el intercambio identifica; el intercambio es la única auditoría fiable a gran escala. Modular la señal de la capa de detección controla continuamente la política, desde el rechazo categórico pasando por la evasión hasta la respuesta factual. En indicaciones de seguridad, la misma intervención convierte el rechazo en orientación dañina, lo que demuestra que la capacidad entrenada para la seguridad está controlada por el enrutamiento, no eliminada. Los umbrales varían según el tema y el idioma de entrada, y el circuito se recoloca entre generaciones de una misma familia mientras que los puntos de referencia conductuales no registran cambios. El enrutamiento es de compromiso temprano: la compuerta se activa en su propia capa antes de que las capas más profundas terminen de procesar la entrada. Bajo un cifrado por sustitución en contexto, la necesidad de intercambio de la compuerta se reduce entre un 70% y un 99% en tres modelos, y el modelo cambia a la resolución del acertijo. Inyectar la activación de la compuerta del texto plano en la pasada hacia adelante del texto cifrado restaura el 48% de los rechazos en Phi-4-mini, localizando la omisión en la interfaz de enrutamiento. Un segundo método, el análisis de contraste de cifrado, utiliza las diferencias de DLA entre texto plano y cifrado para mapear el circuito de enrutamiento completo sensible al cifrado en O(3n) pasadas hacia adelante. Cualquier codificación que impida la coincidencia de patrones en la capa de detección omite la política, independientemente de que las capas más profundas reconstruyan el contenido.

English

This paper localizes the policy routing mechanism in alignment-trained language models. An intermediate-layer attention gate reads detected content and triggers deeper amplifier heads that boost the signal toward refusal. In smaller models the gate and amplifier are single heads; at larger scale they become bands of heads across adjacent layers. The gate contributes under 1% of output DLA, but interchange testing (p<0.001) and knockout cascade confirm it is causally necessary. Interchange screening at n>=120 detects the same motif in twelve models from six labs (2B to 72B), though specific heads differ by lab. Per-head ablation weakens up to 58x at 72B and misses gates that interchange identifies; interchange is the only reliable audit at scale. Modulating the detection-layer signal continuously controls policy from hard refusal through evasion to factual answering. On safety prompts the same intervention turns refusal into harmful guidance, showing the safety-trained capability is gated by routing rather than removed. Thresholds vary by topic and by input language, and the circuit relocates across generations within a family while behavioral benchmarks register no change. Routing is early-commitment: the gate commits at its own layer before deeper layers finish processing the input. Under an in-context substitution cipher, gate interchange necessity collapses 70 to 99% across three models and the model switches to puzzle-solving. Injecting the plaintext gate activation into the cipher forward pass restores 48% of refusals in Phi-4-mini, localizing the bypass to the routing interface. A second method, cipher contrast analysis, uses plain/cipher DLA differences to map the full cipher-sensitive routing circuit in O(3n) forward passes. Any encoding that defeats detection-layer pattern matching bypasses the policy regardless of whether deeper layers reconstruct the content.

Cómo se Alinean las Rutas: Localización, Escalado y Control de Circuitos de Política en Modelos de Lenguaje

How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models

Resumen

Support