ChatPaper.aiChatPaper

LLM-Wasserzeichenumgehung durch Bias-Inversion

LLM Watermark Evasion via Bias Inversion

September 27, 2025
papers.authors: Jeongyeon Hwang, Sangdon Park, Jungseul Ok
cs.AI

papers.abstract

Wasserzeichen für große Sprachmodelle (LLMs) integrieren ein statistisches Signal während der Texterzeugung, um die Erkennung von modellgenerierten Texten zu ermöglichen. Obwohl sich Wasserzeichen in harmlosen Umgebungen als wirksam erwiesen haben, bleibt ihre Robustheit gegenüber adversarischen Umgehungsversuchen umstritten. Um ein rigoroses Verständnis und eine fundierte Bewertung solcher Schwachstellen voranzutreiben, schlagen wir den Bias-Inversion-Rewriting-Angriff (BIRA) vor, der theoretisch fundiert und modellagnostisch ist. BIRA schwächt das Wasserzeichensignal, indem es die Logits wahrscheinlich wasserzeichenbehafteter Token während des auf LLM basierenden Umschreibens unterdrückt, ohne Kenntnis des zugrunde liegenden Wasserzeichenschemas. Bei aktuellen Wasserzeichenmethoden erreicht BIRA eine Umgehungsrate von über 99 %, während der semantische Inhalt des Originaltexts erhalten bleibt. Über die Demonstration eines Angriffs hinaus offenbaren unsere Ergebnisse eine systematische Schwachstelle, die die Notwendigkeit von Stresstests und robusten Abwehrmechanismen unterstreicht.
English
Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the Bias-Inversion Rewriting Attack (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the logits of likely watermarked tokens during LLM-based rewriting, without any knowledge of the underlying watermarking scheme. Across recent watermarking methods, BIRA achieves over 99\% evasion while preserving the semantic content of the original text. Beyond demonstrating an attack, our results reveal a systematic vulnerability, emphasizing the need for stress testing and robust defenses.
PDF10October 1, 2025