ChatPaper.aiChatPaper

편향 역전을 통한 LLM 워터마크 회피

LLM Watermark Evasion via Bias Inversion

September 27, 2025
저자: Jeongyeon Hwang, Sangdon Park, Jungseul Ok
cs.AI

초록

대규모 언어 모델(LLM)을 위한 워터마킹은 생성 과정에서 통계적 신호를 내장하여 모델이 생성한 텍스트의 탐지를 가능하게 한다. 워터마킹은 순조로운 환경에서는 효과적임이 입증되었으나, 적대적 회피 상황에서의 견고성은 여전히 논쟁의 여지가 있다. 이러한 취약점에 대한 엄밀한 이해와 평가를 진전시키기 위해, 우리는 이론적으로 동기를 부여받고 모델에 구애받지 않는 편향 역전 재작성 공격(Bias-Inversion Rewriting Attack, BIRA)을 제안한다. BIRA는 기저의 워터마킹 방식을 알지 못한 상태에서도 LLM 기반 재작성 과정에서 워터마크가 있을 가능성이 높은 토큰의 로짓을 억제함으로써 워터마크 신호를 약화시킨다. 최근의 워터마킹 방법들에 걸쳐, BIRA는 원본 텍스트의 의미적 내용을 보존하면서 99% 이상의 회피율을 달성한다. 단순히 공격을 시연하는 것을 넘어, 우리의 결과는 체계적인 취약점을 드러내며, 스트레스 테스트와 견고한 방어의 필요성을 강조한다.
English
Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the Bias-Inversion Rewriting Attack (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the logits of likely watermarked tokens during LLM-based rewriting, without any knowledge of the underlying watermarking scheme. Across recent watermarking methods, BIRA achieves over 99\% evasion while preserving the semantic content of the original text. Beyond demonstrating an attack, our results reveal a systematic vulnerability, emphasizing the need for stress testing and robust defenses.
PDF10October 1, 2025