Come si Allineano i Percorsi: Localizzazione, Scalabilità e Controllo dei Circuiti delle Politiche nei Modelli Linguistici

Abstract

Questo studio individua il meccanismo di instradamento delle policy nei modelli linguistici addestrati all'allineamento. Un gate di attenzione a livello intermedio legge il contenuto rilevato e attiva teste amplificatrici più profonde che potenziano il segnale verso il rifiuto. Nei modelli più piccoli, il gate e l'amplificatore sono teste singole; a scala maggiore diventano gruppi di teste su strati adiacenti. Il gate contribuisce per meno dell'1% all'attivazione DLA in output, ma test di scambio (p<0,001) e interruzione a cascata confermano che è causalmente necessario. Uno screening di scambio su n>=120 rileva lo stesso motivo in dodici modelli di sei laboratori (da 2B a 72B), sebbene le teste specifiche differiscano per laboratorio. L'ablazione per testa indebolisce fino a 58x a 72B e non rileva i gate che lo scambio identifica; lo scambio è l'unico audit affidabile su larga scala. Modulare il segnale dello strato di rilevamento controlla continuamente la policy, dal rifiuto netto passando per l'evasione fino alla risposta fattuale. Su prompt di sicurezza, lo stesso intervento trasforma il rifiuto in indicazioni dannose, mostrando che la capacità addestrata per la sicurezza è governata dall'instradamento piuttosto che rimossa. Le soglie variano per argomento e lingua di input, e il circuito si riposiziona tra le generazioni all'interno di una famiglia mentre i benchmark comportamentali non registrano cambiamenti. L'instradamento è a impegno precoce: il gate si impegna al proprio strato prima che gli strati più profondi completino l'elaborazione dell'input. Sotto un cifrario a sostituzione in-context, la necessità del gate per scambio crolla dal 70 al 99% in tre modelli e il modello passa alla risoluzione dell'enigma. Iniettare l'attivazione del gate del testo in chiaro nel passaggio in avanti del cifrario ripristina il 48% dei rifiuti in Phi-4-mini, localizzando il bypass sull'interfaccia di instradamento. Un secondo metodo, l'analisi del contrasto cifrario, utilizza le differenze DLA testo chiaro/cifrato per mappare l'intero circuito di instradamento sensibile al cifrario in O(3n) passaggi in avanti. Qualsiasi codifica che eluda il pattern matching a livello di rilevamento bypassa la policy indipendentemente dal fatto che gli strati più profondi ricostruiscano il contenuto.

English

This paper localizes the policy routing mechanism in alignment-trained language models. An intermediate-layer attention gate reads detected content and triggers deeper amplifier heads that boost the signal toward refusal. In smaller models the gate and amplifier are single heads; at larger scale they become bands of heads across adjacent layers. The gate contributes under 1% of output DLA, but interchange testing (p<0.001) and knockout cascade confirm it is causally necessary. Interchange screening at n>=120 detects the same motif in twelve models from six labs (2B to 72B), though specific heads differ by lab. Per-head ablation weakens up to 58x at 72B and misses gates that interchange identifies; interchange is the only reliable audit at scale. Modulating the detection-layer signal continuously controls policy from hard refusal through evasion to factual answering. On safety prompts the same intervention turns refusal into harmful guidance, showing the safety-trained capability is gated by routing rather than removed. Thresholds vary by topic and by input language, and the circuit relocates across generations within a family while behavioral benchmarks register no change. Routing is early-commitment: the gate commits at its own layer before deeper layers finish processing the input. Under an in-context substitution cipher, gate interchange necessity collapses 70 to 99% across three models and the model switches to puzzle-solving. Injecting the plaintext gate activation into the cipher forward pass restores 48% of refusals in Phi-4-mini, localizing the bypass to the routing interface. A second method, cipher contrast analysis, uses plain/cipher DLA differences to map the full cipher-sensitive routing circuit in O(3n) forward passes. Any encoding that defeats detection-layer pattern matching bypasses the policy regardless of whether deeper layers reconstruct the content.

Come si Allineano i Percorsi: Localizzazione, Scalabilità e Controllo dei Circuiti delle Politiche nei Modelli Linguistici

How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models

Abstract

Support