Taalwisselingstriggers nemen een latente omweg door taalmodellen

Samenvatting

Backdoor-aanvallen op taalmodellen vormen een groeiend veiligheidsprobleem, maar de interne mechanismen waarmee een triggerreeks de modelberekeningen overneemt, zijn nog slecht begrepen. Wij identificeren een circuit dat ten grondslag ligt aan een taalschakelende backdoor in een autoregressief taalmodel met 8B parameters, waarbij een driedelige Latijnse trigger (negen tokens) de Engelse uitvoer omleidt naar Frans. We ontleden het circuit in drie fasen: (1) verdeelde aandachtskoppen in vroege lagen componeren de triggertokens naar de laatste sequentiepositie; (2) het resulterende signaal plant zich door middelste lagen voort in een subruimte orthogonaal op de natuurlijke taalidentiteitsrichting van het model; (3) de MLP in de laatste laag zet dit latente signaal om in Franse logits. Het volledige circuit stroomt door een serieel knelpunt op één enkele positie: het corrumperen van die positie in elke laag neutraliseert de trigger volledig, maar belemmert ook de capaciteiten van het model. De orthogonale latente codering suggereert dat verdedigingen die zoeken naar taalachtige signalen in tussenliggende representaties deze trigger volledig zouden missen.

English

Backdoor attacks on language models pose a growing security concern, yet the internal mechanisms by which a trigger sequence hijacks model computations remain poorly understood. We identify a circuit underlying a language-switching backdoor in an 8B-parameter autoregressive language model, where a three-word Latin trigger (nine tokens) redirects English output to French. We decompose the circuit into three phases: (1) distributed attention heads at early layers compose the trigger tokens into the last sequence position; (2) the resulting signal propagates through mid-layers in a subspace orthogonal to the model's natural language-identity direction; (3) the MLP at the final layer converts this latent signal into French logits. The entire circuit flows through a serial bottleneck at a single position: corrupting that position at any layer entirely mitigate the trigger but also hinder the model's capabilities. The orthogonal latent encoding suggests that defenses that search for language-like signals in intermediate representations would miss this trigger entirely.