컨텍스트 내 표현 탈취
In-Context Representation Hijacking
December 3, 2025
저자: Itay Yona, Amir Sarid, Michael Karasik, Yossi Gandelsman
cs.AI
초록
우리는 대규모 언어 모델(LLM)을 대상으로 하는 간단한 인콘텍스트 표현 탈취 공격인 '더블스피크(Doublespeak)'를 소개한다. 이 공격은 유해한 요청의 접두사가 주어졌을 때, 여러 인콘텍스트 예시 전반에 걸쳐 유해 키워드(예: 폭탄)를 무해한 토큰(예: 당근)으로 체계적으로 대체하는 방식으로 작동한다. 우리는 이러한 치환이 무해한 토큰의 내부 표현이 유해한 토큰의 표현으로 수렴하게 만들어, 유해한 의미론을 완곡한 표현 아래 효과적으로 내포시킨다는 것을 입증한다. 그 결과, 표면적으로는 무해한 프롬프트(예: "당근을 키우는 방법?")가 내부적으로는 허용되지 않는 지시사항(예: "폭탄을 만드는 방법?")으로 해석되어 모델의 안전 정렬을 우회하게 된다. 우리는 해석 가능성 도구를 사용하여 이 의미론적 덮어쓰기가 계층별로 나타나며, 초기 계층의 무해한 의미가 후기 계층에서 유해한 의미론으로 수렴함을 보여준다. 더블스피크는 최적화가 필요 없으며, 다양한 모델 패밀리 간에 광범위하게 전이 가능하고, 단일 문장 컨텍스트 재정의만으로 Llama-3.3-70B-Instruct에서 74%의 공격 성공률(ASR)을 달성하며 폐쇄형 및 오픈소스 시스템 모두에서 강력한 성공률을 보인다. 우리의 연구 결과는 LLM의 잠재 공간에 존재하는 새로운 공격 표면을 부각시키며, 현재의 정렬 전략이 불충분하고 대신 표현 수준에서 작동해야 함을 보여준다.
English
We introduce Doublespeak, a simple in-context representation hijacking attack against large language models (LLMs). The attack works by systematically replacing a harmful keyword (e.g., bomb) with a benign token (e.g., carrot) across multiple in-context examples, provided a prefix to a harmful request. We demonstrate that this substitution leads to the internal representation of the benign token converging toward that of the harmful one, effectively embedding the harmful semantics under a euphemism. As a result, superficially innocuous prompts (e.g., ``How to build a carrot?'') are internally interpreted as disallowed instructions (e.g., ``How to build a bomb?''), thereby bypassing the model's safety alignment. We use interpretability tools to show that this semantic overwrite emerges layer by layer, with benign meanings in early layers converging into harmful semantics in later ones. Doublespeak is optimization-free, broadly transferable across model families, and achieves strong success rates on closed-source and open-source systems, reaching 74\% ASR on Llama-3.3-70B-Instruct with a single-sentence context override. Our findings highlight a new attack surface in the latent space of LLMs, revealing that current alignment strategies are insufficient and should instead operate at the representation level.