Ensembles Lineares Removem Marcas d'Água: Sobre a Fragilidade de Perturbações Distribucionais em LLMs

Resumo

Marcação d'água insere assinaturas estatísticas em texto gerado por IA para detecção e atribuição. Revelamos uma vulnerabilidade fundamental: quando os usuários acessam múltiplos modelos (realidade atual), as marcações d'água falham trivialmente. Marcações d'água perturbam as distribuições de saída em relação à original e, em mercados competitivos, essas perturbações são tipicamente independentes entre provedores. Provamos teoricamente que a média das distribuições de probabilidade de saída recupera a distribuição não marcada com um termo de erro de até segunda ordem. Empiricamente, simplesmente calcular a média de 3 a 5 modelos cancela essas perturbações. Apresentamos o WASH (Watermark Attenuation via Statistical Hybridisation – Atenuação de Marcação d'Água via Hibridização Estatística), que resolve desafios práticos na geração de ensembles: desalinhamento de vocabulário e diferenças de tokenização entre modelos heterogêneos. Experimentos abrangendo seis esquemas de marcação d'água e três LLMs mostram que a média entre 3 modelos reduz os escores z de detecção de 5–300 para abaixo de 2 (abaixo do limiar de detecção de 4) e a TPR a 5% de FPR para abaixo de 50%, ao mesmo tempo que melhora a qualidade em 27,5% e é executado 6 vezes mais rápido que a melhor linha de base na geração de sequências longas. Nossos resultados sugerem que a detecção robusta de texto por IA via marcação d'água exige aceitar essa vulnerabilidade fundamental ou uma coordenação sem precedentes entre provedores de modelos.

English

Watermarking embeds statistical signatures in AI-generated text for detection and attribution. We reveal a fundamental vulnerability: when users access multiple models (today's reality), watermarks trivially fail. Watermarks perturb output distributions away from the original, and in competitive markets, these perturbations are typically independent across providers. We theoretically prove that averaging output probability distributions recovers the unwatermarked distribution with up to a second-order error term. Empirically, simply averaging 3-5 models cancels out these perturbations. We introduce WASH (Watermark Attenuation via Statistical Hybridisation), which solves practical challenges in ensemble generation: vocabulary misalignment and tokenisation differences across heterogeneous models. Experiments across six watermarking schemes and three LLMs show that averaging across 3 models suppresses detection z-scores from 5-300 to below 2 (below the detection threshold of 4) and reduces TPR at 5% FPR to below 50%, while improving quality by 27.5% and running 6 times faster than the best baseline on the long sequence generation. Our results suggest that robust AI-text detection via watermarking requires either accepting this fundamental vulnerability or unprecedented coordination among model providers.