Évasion de filigrane des LLM par inversion de biais

papers.abstract

Le tatouage numérique pour les grands modèles de langage (LLM) intègre un signal statistique lors de la génération de texte afin de permettre la détection de textes produits par le modèle. Bien que le tatouage se soit avéré efficace dans des contextes bénins, sa robustesse face aux tentatives d'évasion adverses reste contestée. Pour approfondir la compréhension et l'évaluation rigoureuses de ces vulnérabilités, nous proposons l'attaque par réécriture par inversion de biais (BIRA), qui est théoriquement motivée et indépendante du modèle. BIRA affaiblit le signal de tatouage en supprimant les logits des jetons susceptibles d'être tatoués lors de la réécriture basée sur un LLM, sans aucune connaissance du schéma de tatouage sous-jacent. Sur plusieurs méthodes récentes de tatouage, BIRA atteint un taux d'évasion supérieur à 99 % tout en préservant le contenu sémantique du texte original. Au-delà de la démonstration d'une attaque, nos résultats révèlent une vulnérabilité systématique, soulignant la nécessité de tests de résistance et de défenses robustes.

English

Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the Bias-Inversion Rewriting Attack (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the logits of likely watermarked tokens during LLM-based rewriting, without any knowledge of the underlying watermarking scheme. Across recent watermarking methods, BIRA achieves over 99\% evasion while preserving the semantic content of the original text. Beyond demonstrating an attack, our results reveal a systematic vulnerability, emphasizing the need for stress testing and robust defenses.

Évasion de filigrane des LLM par inversion de biais

LLM Watermark Evasion via Bias Inversion

papers.abstract

Support