Sobre la Fiabilidad de las Marcas de Agua para Modelos de Lenguaje a Gran Escala
On the Reliability of Watermarks for Large Language Models
June 7, 2023
Autores: John Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum, Tom Goldstein
cs.AI
Resumen
Los modelos de lenguaje a gran escala (LLMs, por sus siglas en inglés) se han desplegado para uso cotidiano y están posicionados para producir grandes cantidades de texto en la próxima década. El texto generado por máquinas podría desplazar al texto escrito por humanos en internet y tiene el potencial de ser utilizado con fines maliciosos, como ataques de spearphishing y bots en redes sociales. La marca de agua es una estrategia simple y efectiva para mitigar estos daños, ya que permite la detección y documentación del texto generado por LLMs. Sin embargo, una pregunta crucial persiste: ¿Qué tan confiable es la marca de agua en entornos realistas en el mundo real? Allí, el texto con marca de agua podría mezclarse con otras fuentes de texto, ser parafraseado por escritores humanos u otros modelos de lenguaje, y utilizado en una amplia variedad de dominios, tanto sociales como técnicos. En este artículo, exploramos diferentes esquemas de detección, cuantificamos su capacidad para detectar marcas de agua y determinamos cuánto texto generado por máquinas necesita observarse en cada escenario para detectar la marca de agua de manera confiable. Destacamos especialmente nuestro estudio con humanos, donde investigamos la confiabilidad de la marca de agua frente al parafraseo humano. Comparamos la detección basada en marcas de agua con otras estrategias de detección, concluyendo que, en general, la marca de agua es una solución confiable, especialmente debido a su complejidad de muestreo: para todos los ataques que consideramos, la evidencia de la marca de agua se acumula cuanto más ejemplos se proporcionan, y la marca de agua eventualmente se detecta.
English
Large language models (LLMs) are now deployed to everyday use and positioned
to produce large quantities of text in the coming decade. Machine-generated
text may displace human-written text on the internet and has the potential to
be used for malicious purposes, such as spearphishing attacks and social media
bots. Watermarking is a simple and effective strategy for mitigating such harms
by enabling the detection and documentation of LLM-generated text. Yet, a
crucial question remains: How reliable is watermarking in realistic settings in
the wild? There, watermarked text might be mixed with other text sources,
paraphrased by human writers or other language models, and used for
applications in a broad number of domains, both social and technical. In this
paper, we explore different detection schemes, quantify their power at
detecting watermarks, and determine how much machine-generated text needs to be
observed in each scenario to reliably detect the watermark. We especially
highlight our human study, where we investigate the reliability of watermarking
when faced with human paraphrasing. We compare watermark-based detection to
other detection strategies, finding overall that watermarking is a reliable
solution, especially because of its sample complexity - for all attacks we
consider, the watermark evidence compounds the more examples are given, and the
watermark is eventually detected.