LLM-watermarkontwijking via bias-inversie
LLM Watermark Evasion via Bias Inversion
September 27, 2025
Auteurs: Jeongyeon Hwang, Sangdon Park, Jungseul Ok
cs.AI
Samenvatting
Watermarking voor grote taalmodellen (LLM's) integreert een statistisch signaal
tijdens het genereren om de detectie van door het model geproduceerde tekst mogelijk te maken. Hoewel
watermarking effectief is gebleken in goedaardige omgevingen, blijft de robuustheid ervan onder
adversariale ontwijking betwist. Om een rigoureus begrip en evaluatie van dergelijke kwetsbaarheden
te bevorderen, stellen we de Bias-Inversion Rewriting Attack (BIRA) voor, die theoretisch onderbouwd
en model-agnostisch is. BIRA verzwakt het watermerksignaal door de logits van waarschijnlijk
gewatermerkte tokens te onderdrukken tijdens het herschrijven op basis van LLM's, zonder enige kennis
van het onderliggende watermerkschema. Over recente watermerkmethoden heen bereikt BIRA meer dan 99%
ontwijking terwijl de semantische inhoud van de oorspronkelijke tekst behouden blijft. Naast het demonstreren
van een aanval, onthullen onze resultaten een systematische kwetsbaarheid, wat de noodzaak benadrukt van
stresstesten en robuuste verdedigingen.
English
Watermarking for large language models (LLMs) embeds a statistical signal
during generation to enable detection of model-produced text. While
watermarking has proven effective in benign settings, its robustness under
adversarial evasion remains contested. To advance a rigorous understanding and
evaluation of such vulnerabilities, we propose the Bias-Inversion
Rewriting Attack (BIRA), which is theoretically motivated and model-agnostic.
BIRA weakens the watermark signal by suppressing the logits of likely
watermarked tokens during LLM-based rewriting, without any knowledge of the
underlying watermarking scheme. Across recent watermarking methods, BIRA
achieves over 99\% evasion while preserving the semantic content of the
original text. Beyond demonstrating an attack, our results reveal a systematic
vulnerability, emphasizing the need for stress testing and robust defenses.