Evasión de Marca de Agua en LLM mediante Inversión de Sesgo
LLM Watermark Evasion via Bias Inversion
September 27, 2025
Autores: Jeongyeon Hwang, Sangdon Park, Jungseul Ok
cs.AI
Resumen
La marca de agua para modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) incrusta una señal estadística durante la generación de texto para permitir la detección de contenido producido por el modelo. Aunque la marca de agua ha demostrado ser efectiva en entornos benignos, su robustez frente a evasiones adversarias sigue siendo cuestionada. Para avanzar en una comprensión y evaluación rigurosas de estas vulnerabilidades, proponemos el Ataque de Reescribimiento por Inversión de Sesgo (BIRA, por sus siglas en inglés), que está teóricamente fundamentado y es independiente del modelo. BIRA debilita la señal de la marca de agua al suprimir los logits de los tokens probablemente marcados durante el reescribimiento basado en LLM, sin necesidad de conocer el esquema subyacente de la marca de agua. En métodos recientes de marca de agua, BIRA logra una evasión superior al 99\% mientras preserva el contenido semántico del texto original. Más allá de demostrar un ataque, nuestros resultados revelan una vulnerabilidad sistemática, enfatizando la necesidad de pruebas de estrés y defensas robustas.
English
Watermarking for large language models (LLMs) embeds a statistical signal
during generation to enable detection of model-produced text. While
watermarking has proven effective in benign settings, its robustness under
adversarial evasion remains contested. To advance a rigorous understanding and
evaluation of such vulnerabilities, we propose the Bias-Inversion
Rewriting Attack (BIRA), which is theoretically motivated and model-agnostic.
BIRA weakens the watermark signal by suppressing the logits of likely
watermarked tokens during LLM-based rewriting, without any knowledge of the
underlying watermarking scheme. Across recent watermarking methods, BIRA
achieves over 99\% evasion while preserving the semantic content of the
original text. Beyond demonstrating an attack, our results reveal a systematic
vulnerability, emphasizing the need for stress testing and robust defenses.