ChatPaper.aiChatPaper

Evasão de Marca d'Água em LLMs por meio de Inversão de Viés

LLM Watermark Evasion via Bias Inversion

September 27, 2025
Autores: Jeongyeon Hwang, Sangdon Park, Jungseul Ok
cs.AI

Resumo

A marcação d'água (watermarking) para modelos de linguagem de grande escala (LLMs) incorpora um sinal estatístico durante a geração de texto para permitir a detecção de conteúdo produzido pelo modelo. Embora a marcação d'água tenha se mostrado eficaz em cenários benignos, sua robustez diante de evasões adversárias permanece contestada. Para avançar em uma compreensão e avaliação rigorosas dessas vulnerabilidades, propomos o Ataque de Reescrevimento por Inversão de Viés (BIRA, Bias-Inversion Rewriting Attack), que é teoricamente fundamentado e independente do modelo. O BIRA enfraquece o sinal da marcação d'água ao suprimir os logits dos tokens provavelmente marcados durante a reescrita baseada em LLM, sem qualquer conhecimento do esquema de marcação d'água subjacente. Em métodos recentes de marcação d'água, o BIRA alcança mais de 99% de evasão enquanto preserva o conteúdo semântico do texto original. Além de demonstrar um ataque, nossos resultados revelam uma vulnerabilidade sistemática, enfatizando a necessidade de testes de estresse e defesas robustas.
English
Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the Bias-Inversion Rewriting Attack (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the logits of likely watermarked tokens during LLM-based rewriting, without any knowledge of the underlying watermarking scheme. Across recent watermarking methods, BIRA achieves over 99\% evasion while preserving the semantic content of the original text. Beyond demonstrating an attack, our results reveal a systematic vulnerability, emphasizing the need for stress testing and robust defenses.
PDF01October 1, 2025