Как выстраиваются пути согласования: локализация, масштабирование и управление контурами политик в языковых моделях

Аннотация

В данной работе локализуется механизм политической маршрутизации в языковых моделях, обученных с выравниванием. Шлюз внимания в промежуточном слое считывает обнаруженный контент и активирует более глубокие усилительные головки, которые усиливают сигнал в сторону отказа. В меньших моделях шлюз и усилитель представляют собой одиночные головки; в более крупных масштабах они становятся группами головок в соседних слоях. Вклад шлюза составляет менее 1% от общего DLA на выходе, однако перестановочное тестирование (p<0,001) и каскадное "нокаутирование" подтверждают его причинную необходимость. Скрининг методом перестановки при n>=120 обнаруживает один и тот же мотив в двенадцати моделях из шести лабораторий (от 2B до 72B), хотя конкретные головки различаются в зависимости от лаборатории. Абляция по отдельным головкам ослабляет сигнал до 58 раз в модели на 72B и пропускает шлюзы, которые выявляет перестановка; перестановка является единственным надежным методом аудита в крупном масштабе. Модуляция сигнала в слое детектирования позволяет непрерывно управлять политикой — от жесткого отказа через уклонение до фактического ответа. На запросах, связанных с безопасностью, то же вмешательство превращает отказ во вредоносные инструкции, что показывает, что обученная безопасности способность управляется через маршрутизацию, а не удаляется. Пороги варьируются в зависимости от темы и входного языка, а схема перемещается между поколениями внутри семейства моделей, в то время как поведенческие бенчмарки не фиксируют изменений. Маршрутизация работает по принципу раннего принятия решения: шлюз фиксирует его на своем собственном слое до того, как более глубокие слои завершат обработку ввода. При использовании контекстного шифра замены необходимость шлюза, выявленная методом перестановки, снижается на 70–99% в трех моделях, и модель переключается на решение головоломки. Внедрение активации шлюза из открытого текста в прямой проход зашифрованного текста восстанавливает 48% отказов в Phi-4-mini, что локализует обходной путь на интерфейсе маршрутизации. Второй метод, анализ контраста шифра, использует разницы в DLA между открытым и зашифрованным текстом для картирования полной схемы маршрутизации, чувствительной к шифру, за O(3n) прямых проходов. Любое кодирование, которое нарушает сопоставление с образцом на слое детектирования, обходит политику независимо от того, восстанавливают ли более глубокие слои содержание.

English

This paper localizes the policy routing mechanism in alignment-trained language models. An intermediate-layer attention gate reads detected content and triggers deeper amplifier heads that boost the signal toward refusal. In smaller models the gate and amplifier are single heads; at larger scale they become bands of heads across adjacent layers. The gate contributes under 1% of output DLA, but interchange testing (p<0.001) and knockout cascade confirm it is causally necessary. Interchange screening at n>=120 detects the same motif in twelve models from six labs (2B to 72B), though specific heads differ by lab. Per-head ablation weakens up to 58x at 72B and misses gates that interchange identifies; interchange is the only reliable audit at scale. Modulating the detection-layer signal continuously controls policy from hard refusal through evasion to factual answering. On safety prompts the same intervention turns refusal into harmful guidance, showing the safety-trained capability is gated by routing rather than removed. Thresholds vary by topic and by input language, and the circuit relocates across generations within a family while behavioral benchmarks register no change. Routing is early-commitment: the gate commits at its own layer before deeper layers finish processing the input. Under an in-context substitution cipher, gate interchange necessity collapses 70 to 99% across three models and the model switches to puzzle-solving. Injecting the plaintext gate activation into the cipher forward pass restores 48% of refusals in Phi-4-mini, localizing the bypass to the routing interface. A second method, cipher contrast analysis, uses plain/cipher DLA differences to map the full cipher-sensitive routing circuit in O(3n) forward passes. Any encoding that defeats detection-layer pattern matching bypasses the policy regardless of whether deeper layers reconstruct the content.

Как выстраиваются пути согласования: локализация, масштабирование и управление контурами политик в языковых моделях

How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models

Аннотация

Support