Lineaire Ensembles Spoelen Watermerken Weg: Over de Kwetsbaarheid van Distributionele Verstoringen in LLMs

Samenvatting

Watermerken voegt statistische handtekeningen toe aan door AI gegenereerde tekst voor detectie en toeschrijving. Wij onthullen een fundamentele kwetsbaarheid: wanneer gebruikers toegang hebben tot meerdere modellen (de huidige realiteit), falen watermerken triviaal. Watermerken verstoren de uitvoerverdelingen ten opzichte van het origineel, en in concurrerende markten zijn deze verstoringen doorgaans onafhankelijk over aanbieders heen. Wij bewijzen theoretisch dat het middelen van de kansverdelingen van de uitvoer de niet-gemerkt distributie herstelt, met een foutterm van maximaal de tweede orde. Empirisch gezien neutraliseert eenvoudig middelen van 3-5 modellen deze verstoringen. Wij introduceren WASH (Watermark Attenuatie via Statistische Hybridisatie), dat praktische uitdagingen bij het genereren van ensembles oplost: vocabulaire-misalignering en tokenisatieverschillen tussen heterogene modellen. Experimenten met zes watermerkschema's en drie LLM's tonen aan dat middelen over 3 modellen detectie-z-scores van 5-300 onderdrukt tot onder 2 (onder de detectiedrempel van 4) en de TPR bij 5% FPR reduceert tot onder 50%, terwijl de kwaliteit met 27,5% verbetert en de verwerking 6 keer sneller verloopt dan de beste baseline bij het genereren van lange sequenties. Onze resultaten suggereren dat robuuste AI-tekstdetectie via watermerken óf het accepteren van deze fundamentele kwetsbaarheid vereist, óf een ongekende coördinatie tussen modelaanbieders.

English

Watermarking embeds statistical signatures in AI-generated text for detection and attribution. We reveal a fundamental vulnerability: when users access multiple models (today's reality), watermarks trivially fail. Watermarks perturb output distributions away from the original, and in competitive markets, these perturbations are typically independent across providers. We theoretically prove that averaging output probability distributions recovers the unwatermarked distribution with up to a second-order error term. Empirically, simply averaging 3-5 models cancels out these perturbations. We introduce WASH (Watermark Attenuation via Statistical Hybridisation), which solves practical challenges in ensemble generation: vocabulary misalignment and tokenisation differences across heterogeneous models. Experiments across six watermarking schemes and three LLMs show that averaging across 3 models suppresses detection z-scores from 5-300 to below 2 (below the detection threshold of 4) and reduces TPR at 5% FPR to below 50%, while improving quality by 27.5% and running 6 times faster than the best baseline on the long sequence generation. Our results suggest that robust AI-text detection via watermarking requires either accepting this fundamental vulnerability or unprecedented coordination among model providers.