Линейные ансамбли стирают водяные знаки: О хрупкости возмущений распределения в LLM

Аннотация

Водяные знаки внедряют статистические сигнатуры в сгенерированный ИИ текст для обнаружения и атрибуции. Мы выявляем фундаментальную уязвимость: когда пользователи обращаются к нескольким моделям (что является реальностью сегодня), водяные знаки тривиально перестают работать. Водяные знаки смещают выходные распределения относительно исходного, и на конкурентных рынках эти возмущения, как правило, независимы у разных провайдеров. Мы теоретически доказываем, что усреднение распределений вероятностей вывода восстанавливает немаркированное распределение с точностью до члена ошибки второго порядка. Эмпирически простое усреднение 3–5 моделей отменяет эти возмущения. Мы представляем WASH (ослабление водяного знака посредством статистической гибридизации), который решает практические проблемы генерации ансамбля: несоответствие словарей и различия в токенизации между гетерогенными моделями. Эксперименты с шестью схемами водяных знаков и тремя большими языковыми моделями показывают, что усреднение по трём моделям подавляет z-оценки обнаружения с 5–300 до ниже 2 (ниже порога обнаружения 4) и снижает истинно положительную частоту при 5% ложной положительной частоте до менее 50%, одновременно улучшая качество на 27,5% и работая в 6 раз быстрее лучшего базового метода при генерации длинных последовательностей. Наши результаты показывают, что надёжное обнаружение ИИ-текста с помощью водяных знаков требует либо признания этой фундаментальной уязвимости, либо беспрецедентной координации между поставщиками моделей.

English

Watermarking embeds statistical signatures in AI-generated text for detection and attribution. We reveal a fundamental vulnerability: when users access multiple models (today's reality), watermarks trivially fail. Watermarks perturb output distributions away from the original, and in competitive markets, these perturbations are typically independent across providers. We theoretically prove that averaging output probability distributions recovers the unwatermarked distribution with up to a second-order error term. Empirically, simply averaging 3-5 models cancels out these perturbations. We introduce WASH (Watermark Attenuation via Statistical Hybridisation), which solves practical challenges in ensemble generation: vocabulary misalignment and tokenisation differences across heterogeneous models. Experiments across six watermarking schemes and three LLMs show that averaging across 3 models suppresses detection z-scores from 5-300 to below 2 (below the detection threshold of 4) and reduces TPR at 5% FPR to below 50%, while improving quality by 27.5% and running 6 times faster than the best baseline on the long sequence generation. Our results suggest that robust AI-text detection via watermarking requires either accepting this fundamental vulnerability or unprecedented coordination among model providers.