Los conjuntos lineales eliminan las marcas de agua: sobre la fragilidad de las perturbaciones distribucionales en los LLMs

Resumen

Las marcas de agua incorporan firmas estadísticas en el texto generado por IA para su detección y atribución. Revelamos una vulnerabilidad fundamental: cuando los usuarios acceden a múltiples modelos (la realidad actual), las marcas de agua fallan de forma trivial. Estas marcas alteran las distribuciones de salida respecto a la original y, en mercados competitivos, dichas alteraciones suelen ser independientes entre proveedores. Demostramos teóricamente que promediar las distribuciones de probabilidad de salida permite recuperar la distribución sin marca hasta un término de error de segundo orden. Empíricamente, el simple promedio de 3 a 5 modelos cancela estas perturbaciones. Presentamos WASH (Atenuación de Marca de Agua mediante Hibridación Estadística), que resuelve desafíos prácticos en la generación de conjuntos: desajuste de vocabulario y diferencias de tokenización entre modelos heterogéneos. Los experimentos con seis esquemas de marcado y tres LLM muestran que promediar entre 3 modelos reduce las puntuaciones z de detección de 5-300 a menos de 2 (por debajo del umbral de detección de 4) y disminuye la TPR al 5% de FPR por debajo del 50%, mientras mejora la calidad en un 27,5% y se ejecuta 6 veces más rápido que la mejor línea base en la generación de secuencias largas. Nuestros resultados sugieren que la detección robusta de texto de IA mediante marcas de agua requiere aceptar esta vulnerabilidad fundamental o una coordinación sin precedentes entre los proveedores de modelos.

English

Watermarking embeds statistical signatures in AI-generated text for detection and attribution. We reveal a fundamental vulnerability: when users access multiple models (today's reality), watermarks trivially fail. Watermarks perturb output distributions away from the original, and in competitive markets, these perturbations are typically independent across providers. We theoretically prove that averaging output probability distributions recovers the unwatermarked distribution with up to a second-order error term. Empirically, simply averaging 3-5 models cancels out these perturbations. We introduce WASH (Watermark Attenuation via Statistical Hybridisation), which solves practical challenges in ensemble generation: vocabulary misalignment and tokenisation differences across heterogeneous models. Experiments across six watermarking schemes and three LLMs show that averaging across 3 models suppresses detection z-scores from 5-300 to below 2 (below the detection threshold of 4) and reduces TPR at 5% FPR to below 50%, while improving quality by 27.5% and running 6 times faster than the best baseline on the long sequence generation. Our results suggest that robust AI-text detection via watermarking requires either accepting this fundamental vulnerability or unprecedented coordination among model providers.