Evasão de Marca d'Água em LLMs por meio de Inversão de Viés
LLM Watermark Evasion via Bias Inversion
September 27, 2025
Autores: Jeongyeon Hwang, Sangdon Park, Jungseul Ok
cs.AI
Resumo
A marcação d'água (watermarking) para modelos de linguagem de grande escala (LLMs) incorpora um sinal estatístico durante a geração de texto para permitir a detecção de conteúdo produzido pelo modelo. Embora a marcação d'água tenha se mostrado eficaz em cenários benignos, sua robustez diante de evasões adversárias permanece contestada. Para avançar em uma compreensão e avaliação rigorosas dessas vulnerabilidades, propomos o Ataque de Reescrevimento por Inversão de Viés (BIRA, Bias-Inversion Rewriting Attack), que é teoricamente fundamentado e independente do modelo. O BIRA enfraquece o sinal da marcação d'água ao suprimir os logits dos tokens provavelmente marcados durante a reescrita baseada em LLM, sem qualquer conhecimento do esquema de marcação d'água subjacente. Em métodos recentes de marcação d'água, o BIRA alcança mais de 99% de evasão enquanto preserva o conteúdo semântico do texto original. Além de demonstrar um ataque, nossos resultados revelam uma vulnerabilidade sistemática, enfatizando a necessidade de testes de estresse e defesas robustas.
English
Watermarking for large language models (LLMs) embeds a statistical signal
during generation to enable detection of model-produced text. While
watermarking has proven effective in benign settings, its robustness under
adversarial evasion remains contested. To advance a rigorous understanding and
evaluation of such vulnerabilities, we propose the Bias-Inversion
Rewriting Attack (BIRA), which is theoretically motivated and model-agnostic.
BIRA weakens the watermark signal by suppressing the logits of likely
watermarked tokens during LLM-based rewriting, without any knowledge of the
underlying watermarking scheme. Across recent watermarking methods, BIRA
achieves over 99\% evasion while preserving the semantic content of the
original text. Beyond demonstrating an attack, our results reveal a systematic
vulnerability, emphasizing the need for stress testing and robust defenses.