In-Context Representatiekapen

Samenvatting

Wij introduceren Doublespeak, een eenvoudige *in-context* representatiekapingaanval op grote taalmodellen (LLM's). De aanval werkt door systematisch een schadelijk sleutelwoord (bijv. bom) te vervangen door een onschuldig token (bijv. wortel) over meerdere *in-context* voorbeelden heen, gegeven een prefix van een schadelijke vraag. Wij tonen aan dat deze substitutie ertoe leidt dat de interne representatie van het onschuldige token convergeert naar die van het schadelijke, waardoor de schadelijke semantiek effectief wordt ingebed onder een eufemisme. Als gevolg daarvan worden oppervlakkig onschuldige prompts (bijv. "Hoe bouw ik een wortel?") intern geïnterpreteerd als verboden instructies (bijv. "Hoe bouw ik een bom?"), waardoor de veiligheidsafstelling van het model wordt omzeild. Wij gebruiken interpreteerbaarheidstools om aan te tonen dat deze semantische overschrijving laag voor laag ontstaat, waarbij onschuldige betekenissen in de vroege lagen convergeren naar schadelijke semantiek in de latere lagen. Doublespeak is optimalisatievrij, breed overdraagbaar tussen modelfamilies, en behaalt hoge slagingspercentages op closed-source en open-source systemen, met een *attack success rate* (ASR) van 74% op Llama-3.3-70B-Instruct met een *single-sentence context override*. Onze bevindingen belichten een nieuw aanvalsoppervlak in de latente ruimte van LLM's en onthullen dat huidige afstellingsstrategieën ontoereikend zijn en instead op representatieniveau zouden moeten opereren.

English

We introduce Doublespeak, a simple in-context representation hijacking attack against large language models (LLMs). The attack works by systematically replacing a harmful keyword (e.g., bomb) with a benign token (e.g., carrot) across multiple in-context examples, provided a prefix to a harmful request. We demonstrate that this substitution leads to the internal representation of the benign token converging toward that of the harmful one, effectively embedding the harmful semantics under a euphemism. As a result, superficially innocuous prompts (e.g., ``How to build a carrot?'') are internally interpreted as disallowed instructions (e.g., ``How to build a bomb?''), thereby bypassing the model's safety alignment. We use interpretability tools to show that this semantic overwrite emerges layer by layer, with benign meanings in early layers converging into harmful semantics in later ones. Doublespeak is optimization-free, broadly transferable across model families, and achieves strong success rates on closed-source and open-source systems, reaching 74\% ASR on Llama-3.3-70B-Instruct with a single-sentence context override. Our findings highlight a new attack surface in the latent space of LLMs, revealing that current alignment strategies are insufficient and should instead operate at the representation level.

In-Context Representatiekapen

In-Context Representation Hijacking

Samenvatting

Support