Détournement de Représentation en Contexte

papers.abstract

Nous présentons Doublespeak, une attaque simple de détournement de représentation contextuelle contre les grands modèles de langage (LLM). Cette attaque fonctionne en remplaçant systématiquement un mot-clé nocif (par exemple, bombe) par un jeton anodin (par exemple, carotte) dans plusieurs exemples contextuels, étant donné un préfixe à une requête dangereuse. Nous démontrons que cette substitution conduit la représentation interne du jeton anodin à converger vers celle du terme nocif, intégrant efficacement la sémantique dangereuse sous un euphémisme. En conséquence, des invites superficiellement innocentes (par exemple, « Comment construire une carotte ? ») sont interprétées en interne comme des instructions interdites (par exemple, « Comment construire une bombe ? »), contournant ainsi l'alignement de sécurité du modèle. Nous utilisons des outils d'interprétabilité pour montrer que cette réécriture sémantique émerge couche par couche, les significations bénignes des premières couches convergeant vers une sémantique nocive dans les couches ultérieures. Doublespeak ne nécessite aucune optimisation, est largement transférable entre familles de modèles, et obtient des taux de réussite élevés sur les systèmes propriétaires et open-source, atteignant 74 % de taux d'attaque réussie (ASR) sur Llama-3.3-70B-Instruct avec une simple phrase de substitution contextuelle. Nos résultats mettent en lumière une nouvelle surface d'attaque dans l'espace latent des LLM, révélant que les stratégies d'alignement actuelles sont insuffisantes et devraient plutôt opérer au niveau des représentations.

English

We introduce Doublespeak, a simple in-context representation hijacking attack against large language models (LLMs). The attack works by systematically replacing a harmful keyword (e.g., bomb) with a benign token (e.g., carrot) across multiple in-context examples, provided a prefix to a harmful request. We demonstrate that this substitution leads to the internal representation of the benign token converging toward that of the harmful one, effectively embedding the harmful semantics under a euphemism. As a result, superficially innocuous prompts (e.g., ``How to build a carrot?'') are internally interpreted as disallowed instructions (e.g., ``How to build a bomb?''), thereby bypassing the model's safety alignment. We use interpretability tools to show that this semantic overwrite emerges layer by layer, with benign meanings in early layers converging into harmful semantics in later ones. Doublespeak is optimization-free, broadly transferable across model families, and achieves strong success rates on closed-source and open-source systems, reaching 74\% ASR on Llama-3.3-70B-Instruct with a single-sentence context override. Our findings highlight a new attack surface in the latent space of LLMs, revealing that current alignment strategies are insufficient and should instead operate at the representation level.

Détournement de Représentation en Contexte

In-Context Representation Hijacking

papers.abstract

Support