ChatPaper.aiChatPaper

Evasione della Filigrana degli LLM tramite Inversione del Bias

LLM Watermark Evasion via Bias Inversion

September 27, 2025
Autori: Jeongyeon Hwang, Sangdon Park, Jungseul Ok
cs.AI

Abstract

Il watermarking per i grandi modelli linguistici (LLM) incorpora un segnale statistico durante la generazione per consentire il rilevamento di testi prodotti dal modello. Sebbene il watermarking si sia dimostrato efficace in contesti benigni, la sua robustezza in caso di elusione avversaria rimane controversa. Per promuovere una comprensione e una valutazione rigorose di tali vulnerabilità, proponiamo l'attacco di riscrittura Bias-Inversion (BIRA), teoricamente motivato e indipendente dal modello. BIRA indebolisce il segnale di watermarking sopprimendo i logit dei token probabilmente marcati durante la riscrittura basata su LLM, senza alcuna conoscenza dello schema di watermarking sottostante. Sui recenti metodi di watermarking, BIRA raggiunge un tasso di elusione superiore al 99% preservando il contenuto semantico del testo originale. Oltre a dimostrare un attacco, i nostri risultati rivelano una vulnerabilità sistematica, sottolineando la necessità di stress test e difese robuste.
English
Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the Bias-Inversion Rewriting Attack (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the logits of likely watermarked tokens during LLM-based rewriting, without any knowledge of the underlying watermarking scheme. Across recent watermarking methods, BIRA achieves over 99\% evasion while preserving the semantic content of the original text. Beyond demonstrating an attack, our results reveal a systematic vulnerability, emphasizing the need for stress testing and robust defenses.
PDF01October 1, 2025