Sprachwechsel-Auslöser nehmen einen latenten Umweg durch Sprachmodelle

Zusammenfassung

Backdoor-Angriffe auf Sprachmodelle stellen ein wachsendes Sicherheitsproblem dar, dennoch sind die internen Mechanismen, durch die eine Trigger-Sequenz die Modellberechnungen kapert, weiterhin nur unzureichend verstanden. Wir identifizieren eine Schaltung, die einem sprachumschaltenden Backdoor in einem autoregressiven Sprachmodell mit 8B Parametern zugrunde liegt, bei dem ein aus drei Wörtern bestehender lateinischer Trigger (neun Tokens) die englische Ausgabe auf Französisch umleitet. Wir zerlegen die Schaltung in drei Phasen: (1) Verteilte Aufmerksamkeitsköpfe in frühen Schichten komponieren die Trigger-Tokens in die letzte Sequenzposition; (2) das resultierende Signal breitet sich durch mittlere Schichten in einem Unterraum orthogonal zur natürlichen Sprachidentitätsrichtung des Modells aus; (3) das MLP in der letzten Schicht wandelt dieses latente Signal in französische Logits um. Die gesamte Schaltung fließt durch einen seriellen Engpass an einer einzelnen Position: Eine Störung dieser Position in jeder beliebigen Schicht neutralisiert den Trigger vollständig, beeinträchtigt aber auch die Fähigkeiten des Modells. Die orthogonale latente Kodierung legt nahe, dass Verteidigungsmaßnahmen, die nach sprachähnlichen Signalen in Zwischendarstellungen suchen, diesen Trigger vollständig übersehen würden.

English

Backdoor attacks on language models pose a growing security concern, yet the internal mechanisms by which a trigger sequence hijacks model computations remain poorly understood. We identify a circuit underlying a language-switching backdoor in an 8B-parameter autoregressive language model, where a three-word Latin trigger (nine tokens) redirects English output to French. We decompose the circuit into three phases: (1) distributed attention heads at early layers compose the trigger tokens into the last sequence position; (2) the resulting signal propagates through mid-layers in a subspace orthogonal to the model's natural language-identity direction; (3) the MLP at the final layer converts this latent signal into French logits. The entire circuit flows through a serial bottleneck at a single position: corrupting that position at any layer entirely mitigate the trigger but also hinder the model's capabilities. The orthogonal latent encoding suggests that defenses that search for language-like signals in intermediate representations would miss this trigger entirely.