Hijacking de Representação em Contexto
In-Context Representation Hijacking
December 3, 2025
Autores: Itay Yona, Amir Sarid, Michael Karasik, Yossi Gandelsman
cs.AI
Resumo
Apresentamos o Doublespeak, um ataque simples de sequestro de representação contextual contra grandes modelos de linguagem (LLMs). O atua substituindo sistematicamente uma palavra-chave nociva (por exemplo, *bomba*) por um token benigno (por exemplo, *cenoura*) em múltiplos exemplos contextuais, desde que fornecido um prefixo para uma solicitação prejudicial. Demonstramos que esta substituição leva a representação interna do token benigno a convergir para a do token nocivo, incorporando efetivamente a semântica prejudicial sob um eufemismo. Como resultado, instruções superficialmente inócuas (por exemplo, "Como construir uma cenoura?") são interpretadas internamente como instruções proibidas (por exemplo, "Como construir uma bomba?"), contornando assim o alinhamento de segurança do modelo. Utilizamos ferramentas de interpretabilidade para mostrar que esta sobreposição semântica emerge camada por camada, com significados benignos nas camadas iniciais convergindo para semânticas nocivas nas camadas posteriores. O Doublespeak é livre de otimização, amplamente transferível entre famílias de modelos e atinge altas taxas de sucesso em sistemas de código fechado e aberto, alcançando 74% de Taxa de Sucesso de Ataque (ASR) no Llama-3.3-70B-Instruct com uma única sobreposição contextual. Nossas descobertas destacam uma nova superfície de ataque no espaço latente dos LLMs, revelando que as estratégias atuais de alinhamento são insuficientes e deveriam, em vez disso, operar ao nível da representação.
English
We introduce Doublespeak, a simple in-context representation hijacking attack against large language models (LLMs). The attack works by systematically replacing a harmful keyword (e.g., bomb) with a benign token (e.g., carrot) across multiple in-context examples, provided a prefix to a harmful request. We demonstrate that this substitution leads to the internal representation of the benign token converging toward that of the harmful one, effectively embedding the harmful semantics under a euphemism. As a result, superficially innocuous prompts (e.g., ``How to build a carrot?'') are internally interpreted as disallowed instructions (e.g., ``How to build a bomb?''), thereby bypassing the model's safety alignment. We use interpretability tools to show that this semantic overwrite emerges layer by layer, with benign meanings in early layers converging into harmful semantics in later ones. Doublespeak is optimization-free, broadly transferable across model families, and achieves strong success rates on closed-source and open-source systems, reaching 74\% ASR on Llama-3.3-70B-Instruct with a single-sentence context override. Our findings highlight a new attack surface in the latent space of LLMs, revealing that current alignment strategies are insufficient and should instead operate at the representation level.