Comment l'alignement trace sa route : Localisation, mise à l'échelle et contrôle des circuits décisionnels dans les modèles de langage

Résumé

Ce travail localise le mécanisme d'acheminement stratégique dans les modèles de langage alignés par entraînement. Une porte d'attention en couche intermédiaire lit le contenu détecté et déclenche des têtes amplificatrices plus profondes qui amplifient le signal vers le refus. Dans les modèles plus petits, la porte et l'amplificateur sont des têtes uniques ; à plus grande échelle, ils deviennent des bandes de têtes réparties sur des couches adjacentes. La porte contribue à moins de 1 % du DLA en sortie, mais des tests d'interchange (p<0,001) et une cascade de knock-out confirment qu'elle est causalement nécessaire. Un criblage par interchange sur n>=120 détecte le même motif dans douze modèles de six laboratoires (2B à 72B), bien que les têtes spécifiques diffèrent selon le labo. L'ablation par tête affaiblit jusqu'à 58x sur le modèle 72B et ne détecte pas les portes que l'interchange identifie ; l'interchange est la seule méthode d'audit fiable à grande échelle. Moduler le signal de la couche de détection contrôle continûment la politique, d'un refus catégorique à l'esquive puis à une réponse factuelle. Sur des invites de sécurité, la même intervention transforme le refus en conseil nuisible, montrant que la capacité entraînée pour la sécurité est contrôlée par l'acheminement plutôt que supprimée. Les seuils varient selon le sujet et la langue d'entrée, et le circuit se déplace entre les générations d'une même famille tandis que les benchmarks comportementaux n'enregistrent aucun changement. L'acheminement est à engagement précoce : la porte s'engage à son propre niveau avant que les couches plus profondes n'aient fini de traiter l'entrée. Sous un chiffrement par substitution contextuel, la nécessité de la porte par interchange s'effondre de 70 à 99 % sur trois modèles et le modèle bascule vers la résolution d'énigme. Injecter l'activation de la porte en texte clair dans la passe avant chiffrée restaure 48 % des refus dans Phi-4-mini, localisant le contournement au niveau de l'interface de routage. Une seconde méthode, l'analyse de contraste chiffré, utilise les différences de DLA texte clair/chiffré pour cartographier le circuit de routage sensible au chiffrement en O(3n) passes avant. Tout encodage qui neutralise la reconnaissance de motifs au niveau de la couche de détection contourne la politique, indépendamment du fait que les couches plus profondes reconstruisent ou non le contenu.

English

This paper localizes the policy routing mechanism in alignment-trained language models. An intermediate-layer attention gate reads detected content and triggers deeper amplifier heads that boost the signal toward refusal. In smaller models the gate and amplifier are single heads; at larger scale they become bands of heads across adjacent layers. The gate contributes under 1% of output DLA, but interchange testing (p<0.001) and knockout cascade confirm it is causally necessary. Interchange screening at n>=120 detects the same motif in twelve models from six labs (2B to 72B), though specific heads differ by lab. Per-head ablation weakens up to 58x at 72B and misses gates that interchange identifies; interchange is the only reliable audit at scale. Modulating the detection-layer signal continuously controls policy from hard refusal through evasion to factual answering. On safety prompts the same intervention turns refusal into harmful guidance, showing the safety-trained capability is gated by routing rather than removed. Thresholds vary by topic and by input language, and the circuit relocates across generations within a family while behavioral benchmarks register no change. Routing is early-commitment: the gate commits at its own layer before deeper layers finish processing the input. Under an in-context substitution cipher, gate interchange necessity collapses 70 to 99% across three models and the model switches to puzzle-solving. Injecting the plaintext gate activation into the cipher forward pass restores 48% of refusals in Phi-4-mini, localizing the bypass to the routing interface. A second method, cipher contrast analysis, uses plain/cipher DLA differences to map the full cipher-sensitive routing circuit in O(3n) forward passes. Any encoding that defeats detection-layer pattern matching bypasses the policy regardless of whether deeper layers reconstruct the content.

Comment l'alignement trace sa route : Localisation, mise à l'échelle et contrôle des circuits décisionnels dans les modèles de langage

How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models

Résumé

Support