Los desencadenantes del cambio de idioma toman un desvío latente a través de modelos de lenguaje.

Resumen

Los ataques de puerta trasera en modelos de lenguaje representan una creciente preocupación de seguridad; sin embargo, los mecanismos internos mediante los cuales una secuencia desencadenante secuestra los cómputos del modelo aún no se comprenden bien. Identificamos un circuito subyacente a una puerta trasera de cambio de idioma en un modelo de lenguaje autorregresivo de 8 mil millones de parámetros, donde un desencadenante latino de tres palabras (nueve tokens) redirige la salida del inglés al francés. Descomponemos el circuito en tres fases: (1) cabezas de atención distribuidas en capas tempranas componen los tokens desencadenantes en la última posición de la secuencia; (2) la señal resultante se propaga a través de las capas intermedias en un subespacio ortogonal a la dirección natural de identidad del idioma del modelo; (3) el MLP en la capa final convierte esta señal latente en logits del francés. Todo el circuito fluye a través de un cuello de botella serial en una única posición: corromper esa posición en cualquier capa mitiga por completo el desencadenante, pero también perjudica las capacidades del modelo. La codificación latente ortogonal sugiere que las defensas que buscan señales similares al lenguaje en representaciones intermedias pasarían por alto este desencadenante por completo.

English

Backdoor attacks on language models pose a growing security concern, yet the internal mechanisms by which a trigger sequence hijacks model computations remain poorly understood. We identify a circuit underlying a language-switching backdoor in an 8B-parameter autoregressive language model, where a three-word Latin trigger (nine tokens) redirects English output to French. We decompose the circuit into three phases: (1) distributed attention heads at early layers compose the trigger tokens into the last sequence position; (2) the resulting signal propagates through mid-layers in a subspace orthogonal to the model's natural language-identity direction; (3) the MLP at the final layer converts this latent signal into French logits. The entire circuit flows through a serial bottleneck at a single position: corrupting that position at any layer entirely mitigate the trigger but also hinder the model's capabilities. The orthogonal latent encoding suggests that defenses that search for language-like signals in intermediate representations would miss this trigger entirely.