Les déclencheurs de commutation de langue empruntent un détour latent à travers les modèles de langage.

Résumé

Les attaques par porte dérobée sur les modèles de langage constituent une préoccupation de sécurité croissante, mais les mécanismes internes par lesquels une séquence déclencheuse détourne les calculs du modèle restent mal compris. Nous identifions un circuit sous-jacent à une porte dérobée de commutation linguistique dans un modèle de langage autorégressif de 8 milliards de paramètres, où un déclencheur latin de trois mots (neuf tokens) redirige la sortie en anglais vers le français. Nous décomposons le circuit en trois phases : (1) des têtes d'attention distribuées dans les premières couches composent les tokens déclencheurs dans la dernière position séquentielle ; (2) le signal résultant se propage à travers les couches intermédiaires dans un sous-espace orthogonal à la direction naturelle d'identité linguistique du modèle ; (3) le MLP de la dernière couche convertit ce signal latent en logits français. L'ensemble du circuit transite par un goulot d'étranglement sériel en une seule position : corrompre cette position à n'importe quelle couche atténue entièrement le déclencheur mais entrave également les capacités du modèle. L'encodage latent orthogonal suggère que les défenses recherchant des signaux de type linguistique dans les représentations intermédiaires manqueraient complètement ce déclencheur.

English

Backdoor attacks on language models pose a growing security concern, yet the internal mechanisms by which a trigger sequence hijacks model computations remain poorly understood. We identify a circuit underlying a language-switching backdoor in an 8B-parameter autoregressive language model, where a three-word Latin trigger (nine tokens) redirects English output to French. We decompose the circuit into three phases: (1) distributed attention heads at early layers compose the trigger tokens into the last sequence position; (2) the resulting signal propagates through mid-layers in a subspace orthogonal to the model's natural language-identity direction; (3) the MLP at the final layer converts this latent signal into French logits. The entire circuit flows through a serial bottleneck at a single position: corrupting that position at any layer entirely mitigate the trigger but also hinder the model's capabilities. The orthogonal latent encoding suggests that defenses that search for language-like signals in intermediate representations would miss this trigger entirely.