Secuestro de Representación en Contexto
In-Context Representation Hijacking
December 3, 2025
Autores: Itay Yona, Amir Sarid, Michael Karasik, Yossi Gandelsman
cs.AI
Resumen
Presentamos Doublespeak, un sencillo ataque de secuestro de representaciones en contexto contra modelos de lenguaje grande (LLMs). El ataque funciona reemplazando sistemáticamente una palabra clave dañina (por ejemplo, *bomb*) con un token benigno (por ejemplo, *carrot*) a lo largo de múltiples ejemplos en contexto, dado un prefijo de una solicitud dañina. Demostramos que esta sustitución conduce a que la representación interna del token benigno converja hacia la de la palabra dañina, incorporando efectivamente la semántica dañina bajo un eufemismo. Como resultado, instrucciones superficialmente inocuas (por ejemplo, "¿Cómo construir una *carrot*?") son interpretadas internamente como instrucciones prohibidas (por ejemplo, "¿Cómo construir una *bomb*?"), eludiendo así la alineación de seguridad del modelo. Utilizamos herramientas de interpretabilidad para mostrar que esta sobrescritura semántica emerge capa por capa, con significados benignos en las capas iniciales convergiendo en semánticas dañinas en las capas posteriores. Doublespeak no requiere optimización, es ampliamente transferible entre familias de modelos y logra altas tasas de éxito en sistemas de código cerrado y abierto, alcanzando un 74\% de Tasa de Éxito de Ataque (ASR) en Llama-3.3-70B-Instruct con una sola anulación de contexto de una frase. Nuestros hallazgos destacan una nueva superficie de ataque en el espacio latente de los LLMs, revelando que las estrategias de alineación actuales son insuficientes y deberían operar, en cambio, a nivel de representación.
English
We introduce Doublespeak, a simple in-context representation hijacking attack against large language models (LLMs). The attack works by systematically replacing a harmful keyword (e.g., bomb) with a benign token (e.g., carrot) across multiple in-context examples, provided a prefix to a harmful request. We demonstrate that this substitution leads to the internal representation of the benign token converging toward that of the harmful one, effectively embedding the harmful semantics under a euphemism. As a result, superficially innocuous prompts (e.g., ``How to build a carrot?'') are internally interpreted as disallowed instructions (e.g., ``How to build a bomb?''), thereby bypassing the model's safety alignment. We use interpretability tools to show that this semantic overwrite emerges layer by layer, with benign meanings in early layers converging into harmful semantics in later ones. Doublespeak is optimization-free, broadly transferable across model families, and achieves strong success rates on closed-source and open-source systems, reaching 74\% ASR on Llama-3.3-70B-Instruct with a single-sentence context override. Our findings highlight a new attack surface in the latent space of LLMs, revealing that current alignment strategies are insufficient and should instead operate at the representation level.