Marcas de agua robustas y sin distorsión para modelos de lenguaje

Resumen

Proponemos una metodología para incrustar marcas de agua en texto generado por un modelo de lenguaje autorregresivo que sean robustas a perturbaciones sin alterar la distribución del texto hasta un cierto presupuesto máximo de generación. Generamos texto con marca de agua mapeando una secuencia de números aleatorios —que calculamos utilizando una clave de marca de agua aleatoria— a una muestra del modelo de lenguaje. Para detectar texto con marca de agua, cualquier parte que conozca la clave puede alinear el texto con la secuencia de números aleatorios. Implementamos nuestra metodología de marca de agua con dos esquemas de muestreo: muestreo por transformación inversa y muestreo mínimo exponencial. Aplicamos estas marcas de agua a tres modelos de lenguaje —OPT-1.3B, LLaMA-7B y Alpaca-7B— para validar experimentalmente su poder estadístico y robustez frente a diversos ataques de paráfrasis. En particular, para los modelos OPT-1.3B y LLaMA-7B, encontramos que podemos detectar de manera confiable texto con marca de agua (p ≤ 0.01) a partir de 35 tokens, incluso después de corromper entre el 40-50% de los tokens mediante ediciones aleatorias (es decir, sustituciones, inserciones o eliminaciones). Para el modelo Alpaca-7B, realizamos un estudio de caso sobre la viabilidad de marcar respuestas a instrucciones típicas de usuario. Debido a la menor entropía de las respuestas, la detección es más difícil: alrededor del 25% de las respuestas —cuya longitud mediana es de aproximadamente 100 tokens— son detectables con p ≤ 0.01, y la marca de agua también es menos robusta frente a ciertos ataques de paráfrasis automatizados que implementamos.

English

We propose a methodology for planting watermarks in text from an autoregressive language model that are robust to perturbations without changing the distribution over text up to a certain maximum generation budget. We generate watermarked text by mapping a sequence of random numbers -- which we compute using a randomized watermark key -- to a sample from the language model. To detect watermarked text, any party who knows the key can align the text to the random number sequence. We instantiate our watermark methodology with two sampling schemes: inverse transform sampling and exponential minimum sampling. We apply these watermarks to three language models -- OPT-1.3B, LLaMA-7B and Alpaca-7B -- to experimentally validate their statistical power and robustness to various paraphrasing attacks. Notably, for both the OPT-1.3B and LLaMA-7B models, we find we can reliably detect watermarked text (p leq 0.01) from 35 tokens even after corrupting between 40-50\% of the tokens via random edits (i.e., substitutions, insertions or deletions). For the Alpaca-7B model, we conduct a case study on the feasibility of watermarking responses to typical user instructions. Due to the lower entropy of the responses, detection is more difficult: around 25% of the responses -- whose median length is around 100 tokens -- are detectable with p leq 0.01, and the watermark is also less robust to certain automated paraphrasing attacks we implement.

Marcas de agua robustas y sin distorsión para modelos de lenguaje

Robust Distortion-free Watermarks for Language Models

Resumen

Support