ChatPaper.aiChatPaper

Контекстный захват репрезентаций

In-Context Representation Hijacking

December 3, 2025
Авторы: Itay Yona, Amir Sarid, Michael Karasik, Yossi Gandelsman
cs.AI

Аннотация

Мы представляем Doublespeak — простую атаку перехвата репрезентаций в контексте против больших языковых моделей (LLM). Атака работает за счёт систематической замены вредоносного ключевого слова (например, «бомба») на безобидный токен (например, «морковь») в нескольких контекстных примерах, предваряющих вредоносный запрос. Мы демонстрируем, что такая подстановка приводит к сближению внутренней репрезентации безобидного токена с репрезентацией вредоносного, эффективно внедряя вредоносную семантику под видом эвфемизма. В результате поверхностно безобидные промты (например, «Как построить морковь?») внутренне интерпретируются как запрещённые инструкции (например, «Как построить бомбу?»), тем самым обходя защитную адаптацию модели. С помощью инструментов интерпретируемости мы показываем, что это семантическое перезаписывание возникает слой за слоем: безобидные значения на ранних слоях преобразуются во вредоносную семантику на более поздних. Doublespeak не требует оптимизации, обладает широкой переносимостью между семействами моделей и демонстрирует высокие показатели успеха на закрытых и открытых системах, достигая 74% ASR на Llama-3.3-70B-Instruct при переопределении контекста одним предложением. Наши результаты выявляют новую поверхность атаки в латентном пространстве LLM, показывая, что текущие стратегии адаптации недостаточны и должны работать на уровне репрезентаций.
English
We introduce Doublespeak, a simple in-context representation hijacking attack against large language models (LLMs). The attack works by systematically replacing a harmful keyword (e.g., bomb) with a benign token (e.g., carrot) across multiple in-context examples, provided a prefix to a harmful request. We demonstrate that this substitution leads to the internal representation of the benign token converging toward that of the harmful one, effectively embedding the harmful semantics under a euphemism. As a result, superficially innocuous prompts (e.g., ``How to build a carrot?'') are internally interpreted as disallowed instructions (e.g., ``How to build a bomb?''), thereby bypassing the model's safety alignment. We use interpretability tools to show that this semantic overwrite emerges layer by layer, with benign meanings in early layers converging into harmful semantics in later ones. Doublespeak is optimization-free, broadly transferable across model families, and achieves strong success rates on closed-source and open-source systems, reaching 74\% ASR on Llama-3.3-70B-Instruct with a single-sentence context override. Our findings highlight a new attack surface in the latent space of LLMs, revealing that current alignment strategies are insufficient and should instead operate at the representation level.
PDF21December 5, 2025