Évasion de filigrane des LLM par inversion de biais
LLM Watermark Evasion via Bias Inversion
September 27, 2025
papers.authors: Jeongyeon Hwang, Sangdon Park, Jungseul Ok
cs.AI
papers.abstract
Le tatouage numérique pour les grands modèles de langage (LLM) intègre un signal statistique lors de la génération de texte afin de permettre la détection de textes produits par le modèle. Bien que le tatouage se soit avéré efficace dans des contextes bénins, sa robustesse face aux tentatives d'évasion adverses reste contestée. Pour approfondir la compréhension et l'évaluation rigoureuses de ces vulnérabilités, nous proposons l'attaque par réécriture par inversion de biais (BIRA), qui est théoriquement motivée et indépendante du modèle. BIRA affaiblit le signal de tatouage en supprimant les logits des jetons susceptibles d'être tatoués lors de la réécriture basée sur un LLM, sans aucune connaissance du schéma de tatouage sous-jacent. Sur plusieurs méthodes récentes de tatouage, BIRA atteint un taux d'évasion supérieur à 99 % tout en préservant le contenu sémantique du texte original. Au-delà de la démonstration d'une attaque, nos résultats révèlent une vulnérabilité systématique, soulignant la nécessité de tests de résistance et de défenses robustes.
English
Watermarking for large language models (LLMs) embeds a statistical signal
during generation to enable detection of model-produced text. While
watermarking has proven effective in benign settings, its robustness under
adversarial evasion remains contested. To advance a rigorous understanding and
evaluation of such vulnerabilities, we propose the Bias-Inversion
Rewriting Attack (BIRA), which is theoretically motivated and model-agnostic.
BIRA weakens the watermark signal by suppressing the logits of likely
watermarked tokens during LLM-based rewriting, without any knowledge of the
underlying watermarking scheme. Across recent watermarking methods, BIRA
achieves over 99\% evasion while preserving the semantic content of the
original text. Beyond demonstrating an attack, our results reveal a systematic
vulnerability, emphasizing the need for stress testing and robust defenses.