Evasión de Marca de Agua en LLM mediante Inversión de Sesgo

Resumen

La marca de agua para modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) incrusta una señal estadística durante la generación de texto para permitir la detección de contenido producido por el modelo. Aunque la marca de agua ha demostrado ser efectiva en entornos benignos, su robustez frente a evasiones adversarias sigue siendo cuestionada. Para avanzar en una comprensión y evaluación rigurosas de estas vulnerabilidades, proponemos el Ataque de Reescribimiento por Inversión de Sesgo (BIRA, por sus siglas en inglés), que está teóricamente fundamentado y es independiente del modelo. BIRA debilita la señal de la marca de agua al suprimir los logits de los tokens probablemente marcados durante el reescribimiento basado en LLM, sin necesidad de conocer el esquema subyacente de la marca de agua. En métodos recientes de marca de agua, BIRA logra una evasión superior al 99\% mientras preserva el contenido semántico del texto original. Más allá de demostrar un ataque, nuestros resultados revelan una vulnerabilidad sistemática, enfatizando la necesidad de pruebas de estrés y defensas robustas.

English

Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the Bias-Inversion Rewriting Attack (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the logits of likely watermarked tokens during LLM-based rewriting, without any knowledge of the underlying watermarking scheme. Across recent watermarking methods, BIRA achieves over 99\% evasion while preserving the semantic content of the original text. Beyond demonstrating an attack, our results reveal a systematic vulnerability, emphasizing the need for stress testing and robust defenses.

Evasión de Marca de Agua en LLM mediante Inversión de Sesgo

LLM Watermark Evasion via Bias Inversion

Resumen

Support