Триггеры языкового переключения совершают латентный обход через языковые модели

Аннотация

Атаки с использованием бэкдоров на языковые модели представляют растущую угрозу безопасности, однако внутренние механизмы, с помощью которых последовательность-триггер перехватывает вычисления модели, остаются плохо изученными. Мы идентифицируем цепь, лежащую в основе бэкдора, переключающего язык, в авторегрессионной языковой модели с 8 миллиардами параметров, где трехсловный латинский триггер (девять токенов) перенаправляет вывод с английского на французский. Мы разбиваем эту цепь на три фазы: (1) распределенные головы внимания на ранних слоях собирают токены триггера в последнюю позицию последовательности; (2) результирующий сигнал распространяется через средние слои в подпространстве, ортогональном естественному направлению идентификации языка модели; (3) MLP на последнем слое преобразует этот латентный сигнал в логиты французского языка. Вся цепь проходит через последовательное узкое место в одной позиции: повреждение этой позиции на любом слое полностью нейтрализует триггер, но также снижает возможности модели. Ортогональное латентное кодирование предполагает, что защитные механизмы, которые ищут языковые сигналы в промежуточных представлениях, полностью пропустят этот триггер.

English

Backdoor attacks on language models pose a growing security concern, yet the internal mechanisms by which a trigger sequence hijacks model computations remain poorly understood. We identify a circuit underlying a language-switching backdoor in an 8B-parameter autoregressive language model, where a three-word Latin trigger (nine tokens) redirects English output to French. We decompose the circuit into three phases: (1) distributed attention heads at early layers compose the trigger tokens into the last sequence position; (2) the resulting signal propagates through mid-layers in a subspace orthogonal to the model's natural language-identity direction; (3) the MLP at the final layer converts this latent signal into French logits. The entire circuit flows through a serial bottleneck at a single position: corrupting that position at any layer entirely mitigate the trigger but also hinder the model's capabilities. The orthogonal latent encoding suggests that defenses that search for language-like signals in intermediate representations would miss this trigger entirely.