Wie Ausrichtungsrouten funktionieren: Lokalisierung, Skalierung und Steuerung von Politikschaltkreisen in Sprachmodellen

Zusammenfassung

Diese Arbeit lokalisiert den Policy-Routing-Mechanismus in aligniert trainierten Sprachmodellen. Ein Attention-Gate in einer Zwischenschicht liest erkannte Inhalte und triggert tiefere Verstärker-Heads, die das Signal in Richtung Verweigerung verstärken. In kleineren Modellen sind das Gate und der Verstärker einzelne Heads; in größeren Maßstäben werden sie zu Bändern von Heads über benachbarte Schichten hinweg. Das Gate trägt weniger als 1% zur gesamten DLA (Direct Logit Attribution) bei, aber Interchange-Tests (p<0,001) und Knockout-Kaskaden bestätigen, dass es kausal notwendig ist. Ein Interchange-Screening bei n>=120 detektiert dasselbe Motiv in zwölf Modellen von sechs Laboren (2B bis 72B), obwohl die spezifischen Heads je nach Labor variieren. Eine Ablation pro Head schwächt die Wirkung bei 72B um bis zum 58-fachen ab und übersieht Gates, die die Interchange-Methode identifiziert; Interchange ist die einzige zuverlässige Audit-Methode im großen Maßstab. Die Modulation des Signals in der Detektionsschicht kontrolliert die Policy kontinuierlich von harter Verweigerung über Ausweichen bis hin zu sachlicher Beantwortung. Bei Safety-Prompts verwandelt dieselbe Intervention die Verweigerung in schädliche Anleitungen, was zeigt, dass die sicherheitstrainierte Fähigkeit durch Routing gesteuert und nicht entfernt wird. Die Schwellenwerte variieren je nach Thema und Eingabesprache, und die Schaltung verlagert sich über Generationen innerhalb einer Modellfamilie hinweg, während Verhaltens-Benchmarks keine Veränderung registrieren. Das Routing folgt einem Early-Commitment-Prinzip: Das Gate entscheidet bereits auf seiner eigenen Schicht, bevor tiefere Schichten die Eingabe vollständig verarbeitet haben. Unter einem In-Context-Substitutions-Chiffre bricht die kausale Notwendigkeit des Gate-Interchanges in drei Modellen um 70 bis 99 % zusammen und das Modell schaltet auf das Lösen des Rätsels um. Das Injizieren der Klartext-Gate-Aktivierung in den Chiffre-Forward-Pass stellt 48 % der Verweigerungen in Phi-4-mini wieder her und lokalisiert die Umgehung auf die Routing-Schnittstelle. Eine zweite Methode, die Chiffre-Kontrastanalyse, nutzt Klartext/Chiffre-DLA-Unterschiede, um den vollständigen chiffre-sensitiven Routing-Schaltkreis in O(3n) Forward-Passes abzubilden. Jede Kodierung, die die Mustererkennung in der Detektionsschicht umgeht, umgeht die Policy unabhängig davon, ob tiefere Schichten den Inhalt rekonstruieren.

English

This paper localizes the policy routing mechanism in alignment-trained language models. An intermediate-layer attention gate reads detected content and triggers deeper amplifier heads that boost the signal toward refusal. In smaller models the gate and amplifier are single heads; at larger scale they become bands of heads across adjacent layers. The gate contributes under 1% of output DLA, but interchange testing (p<0.001) and knockout cascade confirm it is causally necessary. Interchange screening at n>=120 detects the same motif in twelve models from six labs (2B to 72B), though specific heads differ by lab. Per-head ablation weakens up to 58x at 72B and misses gates that interchange identifies; interchange is the only reliable audit at scale. Modulating the detection-layer signal continuously controls policy from hard refusal through evasion to factual answering. On safety prompts the same intervention turns refusal into harmful guidance, showing the safety-trained capability is gated by routing rather than removed. Thresholds vary by topic and by input language, and the circuit relocates across generations within a family while behavioral benchmarks register no change. Routing is early-commitment: the gate commits at its own layer before deeper layers finish processing the input. Under an in-context substitution cipher, gate interchange necessity collapses 70 to 99% across three models and the model switches to puzzle-solving. Injecting the plaintext gate activation into the cipher forward pass restores 48% of refusals in Phi-4-mini, localizing the bypass to the routing interface. A second method, cipher contrast analysis, uses plain/cipher DLA differences to map the full cipher-sensitive routing circuit in O(3n) forward passes. Any encoding that defeats detection-layer pattern matching bypasses the policy regardless of whether deeper layers reconstruct the content.

Wie Ausrichtungsrouten funktionieren: Lokalisierung, Skalierung und Steuerung von Politikschaltkreisen in Sprachmodellen

How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models

Zusammenfassung

Support