Marcas de agua robustas y sin distorsión para modelos de lenguaje
Robust Distortion-free Watermarks for Language Models
July 28, 2023
Autores: Rohith Kuditipudi, John Thickstun, Tatsunori Hashimoto, Percy Liang
cs.AI
Resumen
Proponemos una metodología para incrustar marcas de agua en texto generado por un modelo de lenguaje autorregresivo que sean robustas a perturbaciones sin alterar la distribución del texto hasta un cierto presupuesto máximo de generación. Generamos texto con marca de agua mapeando una secuencia de números aleatorios —que calculamos utilizando una clave de marca de agua aleatoria— a una muestra del modelo de lenguaje. Para detectar texto con marca de agua, cualquier parte que conozca la clave puede alinear el texto con la secuencia de números aleatorios. Implementamos nuestra metodología de marca de agua con dos esquemas de muestreo: muestreo por transformación inversa y muestreo mínimo exponencial. Aplicamos estas marcas de agua a tres modelos de lenguaje —OPT-1.3B, LLaMA-7B y Alpaca-7B— para validar experimentalmente su poder estadístico y robustez frente a diversos ataques de paráfrasis. En particular, para los modelos OPT-1.3B y LLaMA-7B, encontramos que podemos detectar de manera confiable texto con marca de agua (p ≤ 0.01) a partir de 35 tokens, incluso después de corromper entre el 40-50% de los tokens mediante ediciones aleatorias (es decir, sustituciones, inserciones o eliminaciones). Para el modelo Alpaca-7B, realizamos un estudio de caso sobre la viabilidad de marcar respuestas a instrucciones típicas de usuario. Debido a la menor entropía de las respuestas, la detección es más difícil: alrededor del 25% de las respuestas —cuya longitud mediana es de aproximadamente 100 tokens— son detectables con p ≤ 0.01, y la marca de agua también es menos robusta frente a ciertos ataques de paráfrasis automatizados que implementamos.
English
We propose a methodology for planting watermarks in text from an
autoregressive language model that are robust to perturbations without changing
the distribution over text up to a certain maximum generation budget. We
generate watermarked text by mapping a sequence of random numbers -- which we
compute using a randomized watermark key -- to a sample from the language
model. To detect watermarked text, any party who knows the key can align the
text to the random number sequence. We instantiate our watermark methodology
with two sampling schemes: inverse transform sampling and exponential minimum
sampling. We apply these watermarks to three language models -- OPT-1.3B,
LLaMA-7B and Alpaca-7B -- to experimentally validate their statistical power
and robustness to various paraphrasing attacks. Notably, for both the OPT-1.3B
and LLaMA-7B models, we find we can reliably detect watermarked text (p leq
0.01) from 35 tokens even after corrupting between 40-50\% of the tokens
via random edits (i.e., substitutions, insertions or deletions). For the
Alpaca-7B model, we conduct a case study on the feasibility of watermarking
responses to typical user instructions. Due to the lower entropy of the
responses, detection is more difficult: around 25% of the responses -- whose
median length is around 100 tokens -- are detectable with p leq 0.01, and
the watermark is also less robust to certain automated paraphrasing attacks we
implement.