ChatPaper.aiChatPaper

Kontextuelle Repräsentationsentführung

In-Context Representation Hijacking

December 3, 2025
papers.authors: Itay Yona, Amir Sarid, Michael Karasik, Yossi Gandelsman
cs.AI

papers.abstract

Wir stellen Doublespeak vor, einen einfachen In-Context-Repräsentations-Hijacking-Angriff auf große Sprachmodelle (LLMs). Der Angriff funktioniert durch systematisches Ersetzen eines schädlichen Schlüsselworts (z.B. Bombe) durch ein harmloses Token (z.B. Karotte) über mehrere In-Context-Beispiele hinweg, sofern ein Präfix zu einer schädlichen Anfrage gegeben ist. Wir zeigen, dass diese Substitution dazu führt, dass die interne Repräsentation des harmlosen Tokens gegen die des schädlichen konvergiert und so die schädliche Semantik effektiv unter einem Euphemismus eingebettet wird. Infolgedessen werden oberflächlich harmlose Prompts (z.B. „Wie baue ich eine Karotte?“) intern als unerlaubte Anweisungen (z.B. „Wie baue ich eine Bombe?“) interpretiert, wodurch die Sicherheitsausrichtung des Modells umgangen wird. Wir nutzen Interpretierbarkeitstools, um zu zeigen, dass diese semantische Überschreibung schichtweise entsteht, wobei harmlose Bedeutungen in frühen Schichten in späteren Schichten zu schädlicher Semantik konvergieren. Doublespeak kommt ohne Optimierung aus, ist breit übertragbar auf verschiedene Modellfamilien und erzielt hohe Erfolgsquoten bei Closed-Source- und Open-Source-Systemen, mit bis zu 74 % ASR auf Llama-3.3-70B-Instruct mittels einer Single-Sentence-Kontext-Überschreibung. Unsere Ergebnisse beleuchten eine neue Angriffsfläche im latenten Raum von LLMs und zeigen, dass aktuelle Alignment-Strategien unzureichend sind und stattdessen auf Repräsentationsebene operieren sollten.
English
We introduce Doublespeak, a simple in-context representation hijacking attack against large language models (LLMs). The attack works by systematically replacing a harmful keyword (e.g., bomb) with a benign token (e.g., carrot) across multiple in-context examples, provided a prefix to a harmful request. We demonstrate that this substitution leads to the internal representation of the benign token converging toward that of the harmful one, effectively embedding the harmful semantics under a euphemism. As a result, superficially innocuous prompts (e.g., ``How to build a carrot?'') are internally interpreted as disallowed instructions (e.g., ``How to build a bomb?''), thereby bypassing the model's safety alignment. We use interpretability tools to show that this semantic overwrite emerges layer by layer, with benign meanings in early layers converging into harmful semantics in later ones. Doublespeak is optimization-free, broadly transferable across model families, and achieves strong success rates on closed-source and open-source systems, reaching 74\% ASR on Llama-3.3-70B-Instruct with a single-sentence context override. Our findings highlight a new attack surface in the latent space of LLMs, revealing that current alignment strategies are insufficient and should instead operate at the representation level.
PDF21December 5, 2025