Gatilhos de alternância de idioma tomam um desvio latente através de modelos de linguagem.

Resumo

Ataques de backdoor em modelos de linguagem representam uma preocupação crescente de segurança, mas os mecanismos internos pelos quais uma sequência de gatilho sequestra as computações do modelo ainda são pouco compreendidos. Identificamos um circuito subjacente a um backdoor de troca de idioma em um modelo de linguagem autoregressivo de 8 bilhões de parâmetros, onde um gatilho latino de três palavras (nove tokens) redireciona a saída em inglês para o francês. Decompomos o circuito em três fases: (1) cabeças de atenção distribuídas nas primeiras camadas compõem os tokens do gatilho na última posição da sequência; (2) o sinal resultante propaga-se pelas camadas intermediárias em um subespaço ortogonal à direção natural de identidade de linguagem do modelo; (3) o MLP na camada final converte esse sinal latente em logits em francês. Todo o circuito flui através de um gargalo serial em uma única posição: corromper essa posição em qualquer camada mitiga completamente o gatilho, mas também prejudica as capacidades do modelo. A codificação latente ortogonal sugere que defesas que buscam sinais semelhantes à linguagem em representações intermediárias deixariam de detectar esse gatilho por completo.

English

Backdoor attacks on language models pose a growing security concern, yet the internal mechanisms by which a trigger sequence hijacks model computations remain poorly understood. We identify a circuit underlying a language-switching backdoor in an 8B-parameter autoregressive language model, where a three-word Latin trigger (nine tokens) redirects English output to French. We decompose the circuit into three phases: (1) distributed attention heads at early layers compose the trigger tokens into the last sequence position; (2) the resulting signal propagates through mid-layers in a subspace orthogonal to the model's natural language-identity direction; (3) the MLP at the final layer converts this latent signal into French logits. The entire circuit flows through a serial bottleneck at a single position: corrupting that position at any layer entirely mitigate the trigger but also hinder the model's capabilities. The orthogonal latent encoding suggests that defenses that search for language-like signals in intermediate representations would miss this trigger entirely.