Les ensembles linéaires éliminent les filigranes : Sur la fragilité des perturbations distributionnelles dans les LLMs

Résumé

Le tatouage numérique intègre des signatures statistiques dans les textes générés par IA à des fins de détection et d'attribution. Nous révélons une vulnérabilité fondamentale : lorsque les utilisateurs accèdent à plusieurs modèles (réalité actuelle), les tatouages échouent trivialement. Les tatouages perturbent les distributions de sortie par rapport à la distribution originale, et dans des marchés concurrentiels, ces perturbations sont généralement indépendantes d'un fournisseur à l'autre. Nous prouvons théoriquement que la moyenne des distributions de probabilité de sortie permet de retrouver la distribution non tatouée, à un terme d'erreur du second ordre près. Empiriquement, une simple moyenne de 3 à 5 modèles annule ces perturbations. Nous introduisons WASH (Watermark Attenuation via Statistical Hybridisation), qui résout les défis pratiques de la génération d'ensemble : le désalignement de vocabulaire et les différences de tokenisation entre modèles hétérogènes. Des expériences menées sur six schémas de tatouage et trois grands modèles de langage (LLMs) montrent que la moyenne de 3 modèles abaisse les z-scores de détection de 5-300 à moins de 2 (en dessous du seuil de détection de 4), réduit le taux de vrais positifs (TVP) à 5 % de taux de faux positifs (TFP) en dessous de 50 %, tout en améliorant la qualité de 27,5 % et en étant 6 fois plus rapide que la meilleure ligne de base sur la génération de séquences longues. Nos résultats suggèrent qu'une détection robuste de texte généré par IA via le tatouage nécessite soit d'accepter cette vulnérabilité fondamentale, soit une coordination sans précédent entre fournisseurs de modèles.

English

Watermarking embeds statistical signatures in AI-generated text for detection and attribution. We reveal a fundamental vulnerability: when users access multiple models (today's reality), watermarks trivially fail. Watermarks perturb output distributions away from the original, and in competitive markets, these perturbations are typically independent across providers. We theoretically prove that averaging output probability distributions recovers the unwatermarked distribution with up to a second-order error term. Empirically, simply averaging 3-5 models cancels out these perturbations. We introduce WASH (Watermark Attenuation via Statistical Hybridisation), which solves practical challenges in ensemble generation: vocabulary misalignment and tokenisation differences across heterogeneous models. Experiments across six watermarking schemes and three LLMs show that averaging across 3 models suppresses detection z-scores from 5-300 to below 2 (below the detection threshold of 4) and reduces TPR at 5% FPR to below 50%, while improving quality by 27.5% and running 6 times faster than the best baseline on the long sequence generation. Our results suggest that robust AI-text detection via watermarking requires either accepting this fundamental vulnerability or unprecedented coordination among model providers.