ChatPaper.aiChatPaper

Уклонение от водяных знаков LLM через инверсию смещения

LLM Watermark Evasion via Bias Inversion

September 27, 2025
Авторы: Jeongyeon Hwang, Sangdon Park, Jungseul Ok
cs.AI

Аннотация

Водяные знаки для больших языковых моделей (LLM) внедряют статистический сигнал в процессе генерации текста, что позволяет обнаруживать текст, созданный моделью. Хотя водяные знаки доказали свою эффективность в благоприятных условиях, их устойчивость к попыткам обхода враждебными методами остается спорной. Для углубленного понимания и оценки таких уязвимостей мы предлагаем атаку на основе инверсии смещения (BIRA), которая теоретически обоснована и не зависит от конкретной модели. BIRA ослабляет сигнал водяного знака, подавляя логиты вероятных токенов с водяными знаками в процессе переписывания текста с использованием LLM, без знания о лежащей в основе схеме водяных знаков. Для современных методов водяных знаков BIRA достигает более 99% успешного обхода, сохраняя при этом семантическое содержание исходного текста. Помимо демонстрации атаки, наши результаты выявляют системную уязвимость, подчеркивая необходимость стресс-тестирования и разработки устойчивых защитных механизмов.
English
Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the Bias-Inversion Rewriting Attack (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the logits of likely watermarked tokens during LLM-based rewriting, without any knowledge of the underlying watermarking scheme. Across recent watermarking methods, BIRA achieves over 99\% evasion while preserving the semantic content of the original text. Beyond demonstrating an attack, our results reveal a systematic vulnerability, emphasizing the need for stress testing and robust defenses.
PDF10October 1, 2025