Lineare Ensembles verwischen Wasserzeichen: Zur Fragilität von Verteilungsperturbationen in LLMs

Zusammenfassung

Wasserzeichen betten statistische Signaturen in KI-generierten Text ein, um Erkennung und Zuordnung zu ermöglichen. Wir decken eine grundlegende Schwachstelle auf: Wenn Nutzer auf mehrere Modelle zugreifen (der heutigen Realität), versagen Wasserzeichen trivialerweise. Wasserzeichen verschieben die Ausgabeverteilungen von der ursprünglichen Verteilung, und in wettbewerblichen Märkten sind diese Störungen typischerweise über die Anbieter hinweg unabhängig. Wir beweisen theoretisch, dass die Mittelung der Ausgabewahrscheinlichkeitsverteilungen die nicht mit Wasserzeichen versehene Verteilung bis auf einen Fehlerterm zweiter Ordnung wiederherstellt. Empirisch gesehen heben bereits 3–5 gemittelte Modelle diese Störungen auf. Wir führen WASH (Watermark Attenuation via Statistical Hybridisation) ein, das praktische Herausforderungen bei der Ensemblierung löst: Vokabularinkongruenz und Tokenisierungsunterschiede zwischen heterogenen Modellen. Experimente mit sechs Wasserzeichenverfahren und drei LLMs zeigen, dass die Mittelung über 3 Modelle die Detektions-z-Werte von 5–300 auf unter 2 (unter dem Erkennungsschwellenwert von 4) senkt, die TPR bei 5 % FPR auf unter 50 % reduziert, die Qualität um 27,5 % verbessert und bei der Erzeugung langer Sequenzen 6-mal schneller läuft als die beste Basislinie. Unsere Ergebnisse legen nahe, dass eine robuste KI-Text-Erkennung durch Wasserzeichen entweder die Akzeptanz dieser grundlegenden Schwachstelle oder eine beispiellose Koordination zwischen den Modellanbietern erfordert.

English

Watermarking embeds statistical signatures in AI-generated text for detection and attribution. We reveal a fundamental vulnerability: when users access multiple models (today's reality), watermarks trivially fail. Watermarks perturb output distributions away from the original, and in competitive markets, these perturbations are typically independent across providers. We theoretically prove that averaging output probability distributions recovers the unwatermarked distribution with up to a second-order error term. Empirically, simply averaging 3-5 models cancels out these perturbations. We introduce WASH (Watermark Attenuation via Statistical Hybridisation), which solves practical challenges in ensemble generation: vocabulary misalignment and tokenisation differences across heterogeneous models. Experiments across six watermarking schemes and three LLMs show that averaging across 3 models suppresses detection z-scores from 5-300 to below 2 (below the detection threshold of 4) and reduces TPR at 5% FPR to below 50%, while improving quality by 27.5% and running 6 times faster than the best baseline on the long sequence generation. Our results suggest that robust AI-text detection via watermarking requires either accepting this fundamental vulnerability or unprecedented coordination among model providers.