Sobre la Fiabilidad de las Marcas de Agua para Modelos de Lenguaje a Gran Escala

Resumen

Los modelos de lenguaje a gran escala (LLMs, por sus siglas en inglés) se han desplegado para uso cotidiano y están posicionados para producir grandes cantidades de texto en la próxima década. El texto generado por máquinas podría desplazar al texto escrito por humanos en internet y tiene el potencial de ser utilizado con fines maliciosos, como ataques de spearphishing y bots en redes sociales. La marca de agua es una estrategia simple y efectiva para mitigar estos daños, ya que permite la detección y documentación del texto generado por LLMs. Sin embargo, una pregunta crucial persiste: ¿Qué tan confiable es la marca de agua en entornos realistas en el mundo real? Allí, el texto con marca de agua podría mezclarse con otras fuentes de texto, ser parafraseado por escritores humanos u otros modelos de lenguaje, y utilizado en una amplia variedad de dominios, tanto sociales como técnicos. En este artículo, exploramos diferentes esquemas de detección, cuantificamos su capacidad para detectar marcas de agua y determinamos cuánto texto generado por máquinas necesita observarse en cada escenario para detectar la marca de agua de manera confiable. Destacamos especialmente nuestro estudio con humanos, donde investigamos la confiabilidad de la marca de agua frente al parafraseo humano. Comparamos la detección basada en marcas de agua con otras estrategias de detección, concluyendo que, en general, la marca de agua es una solución confiable, especialmente debido a su complejidad de muestreo: para todos los ataques que consideramos, la evidencia de la marca de agua se acumula cuanto más ejemplos se proporcionan, y la marca de agua eventualmente se detecta.

English

Large language models (LLMs) are now deployed to everyday use and positioned to produce large quantities of text in the coming decade. Machine-generated text may displace human-written text on the internet and has the potential to be used for malicious purposes, such as spearphishing attacks and social media bots. Watermarking is a simple and effective strategy for mitigating such harms by enabling the detection and documentation of LLM-generated text. Yet, a crucial question remains: How reliable is watermarking in realistic settings in the wild? There, watermarked text might be mixed with other text sources, paraphrased by human writers or other language models, and used for applications in a broad number of domains, both social and technical. In this paper, we explore different detection schemes, quantify their power at detecting watermarks, and determine how much machine-generated text needs to be observed in each scenario to reliably detect the watermark. We especially highlight our human study, where we investigate the reliability of watermarking when faced with human paraphrasing. We compare watermark-based detection to other detection strategies, finding overall that watermarking is a reliable solution, especially because of its sample complexity - for all attacks we consider, the watermark evidence compounds the more examples are given, and the watermark is eventually detected.

Sobre la Fiabilidad de las Marcas de Agua para Modelos de Lenguaje a Gran Escala

On the Reliability of Watermarks for Large Language Models

Resumen

Support