Hoe Afstemming Verloopt: Het Lokaliseren, Schalen en Beheersen van Beleidscircuits in Taalmodellen

Samenvatting

Dit artikel lokaliseert het mechanisme van beleidsroutering in taalmodellen die zijn getraind op naleving. Een aandachtspoort in een tussenlaag leest gedetecteerde inhoud en activeert diepere versterkerkoppen die het signaal richting weigering versterken. In kleinere modellen zijn de poort en versterker enkele koppen; op grotere schaal worden het banden van koppen over aangrenzende lagen. De poort draagt minder dan 1% bij aan de DLA van de output, maar interchange-testen (p<0,001) en knockout-cascade bevestigen dat deze causaal noodzakelijk is. Interchange-screening bij n>=120 detecteert hetzelfde motief in twaalf modellen van zes labs (2B tot 72B), hoewel specifieke koppen per lab verschillen. Per-kop-ablatie verzwakt tot 58x bij 72B en mist poorten die interchange wel identificeert; interchange is de enige betrouwbare audit op schaal. Het moduleren van het signaal in de detectielaag stuurt het beleid continu aan, van harde weigering via ontwijking tot feitelijk beantwoorden. Bij veiligheidsprompts verandert dezelfde interventie weigering in schadelijke richtlijnen, wat aantoont dat de veiligheidsgetrainde capaciteit wordt gegate door routering in plaats van verwijderd. Drempels variëren per onderwerp en per invoertaal, en het circuit verplaatst zich tussen generaties binnen een familie terwijl gedragsbenchmarks geen verandering registreren. Routering is vroeg-commitment: de poort commit op zijn eigen laag voordat diepere lagen klaar zijn met het verwerken van de input. Onder een in-context substitutiecijfer stort de noodzaak voor gate-interchange 70 tot 99% in over drie modellen en schakelt het model over op puzzeloplossen. Het injecteren van de gate-activatie van de platte tekst in de cipher forward pass herstelt 48% van de weigeringen in Phi-4-mini, wat de omzeiling lokaliseert naar de routeringsinterface. Een tweede methode, cipher contrastanalyse, gebruikt platte tekst/cijfer-DLA-verschillen om het volledige cipher-gevoelige routeringscircuit in O(3n) forward passes in kaart te brengen. Elke codering die patroonherkenning in de detectielaag verslaat, omzeilt het beleid, ongeacht of diepere lagen de inhoud reconstrueren.

English

This paper localizes the policy routing mechanism in alignment-trained language models. An intermediate-layer attention gate reads detected content and triggers deeper amplifier heads that boost the signal toward refusal. In smaller models the gate and amplifier are single heads; at larger scale they become bands of heads across adjacent layers. The gate contributes under 1% of output DLA, but interchange testing (p<0.001) and knockout cascade confirm it is causally necessary. Interchange screening at n>=120 detects the same motif in twelve models from six labs (2B to 72B), though specific heads differ by lab. Per-head ablation weakens up to 58x at 72B and misses gates that interchange identifies; interchange is the only reliable audit at scale. Modulating the detection-layer signal continuously controls policy from hard refusal through evasion to factual answering. On safety prompts the same intervention turns refusal into harmful guidance, showing the safety-trained capability is gated by routing rather than removed. Thresholds vary by topic and by input language, and the circuit relocates across generations within a family while behavioral benchmarks register no change. Routing is early-commitment: the gate commits at its own layer before deeper layers finish processing the input. Under an in-context substitution cipher, gate interchange necessity collapses 70 to 99% across three models and the model switches to puzzle-solving. Injecting the plaintext gate activation into the cipher forward pass restores 48% of refusals in Phi-4-mini, localizing the bypass to the routing interface. A second method, cipher contrast analysis, uses plain/cipher DLA differences to map the full cipher-sensitive routing circuit in O(3n) forward passes. Any encoding that defeats detection-layer pattern matching bypasses the policy regardless of whether deeper layers reconstruct the content.

Hoe Afstemming Verloopt: Het Lokaliseren, Schalen en Beheersen van Beleidscircuits in Taalmodellen

How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models

Samenvatting

Support