Wasserzeichen machen Sprachmodelle radioaktiv.
Watermarking Makes Language Models Radioactive
February 22, 2024
Autoren: Tom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon
cs.AI
Zusammenfassung
Diese Arbeit untersucht die Radioaktivität von LLM-generierten Texten, d.h. ob es möglich ist, festzustellen, dass solche Eingaben als Trainingsdaten verwendet wurden. Konventionelle Methoden wie Membership Inference können diese Erkennung mit einer gewissen Genauigkeit durchführen. Wir zeigen, dass mit Wasserzeichen versehene Trainingsdaten Spuren hinterlassen, die einfacher zu erkennen und viel zuverlässiger sind als Membership Inference. Wir verbinden das Kontaminationsniveau mit der Robustheit des Wasserzeichens, seinem Anteil im Trainingsdatensatz und dem Feinabstimmungsprozess. Insbesondere demonstrieren wir, dass das Training auf synthetischen Anweisungen mit Wasserzeichen mit hoher Zuverlässigkeit (p-Wert < 1e-5) erkannt werden kann, selbst wenn nur 5 % des Trainings textes mit Wasserzeichen versehen sind. Somit ermöglicht die LLM-Wasserzeichengebung, die ursprünglich zur Erkennung von maschinell generierten Texten entwickelt wurde, die einfache Identifizierung, ob die Ausgaben eines mit Wasserzeichen versehenen LLMs zur Feinabstimmung eines anderen LLMs verwendet wurden.
English
This paper investigates the radioactivity of LLM-generated texts, i.e.
whether it is possible to detect that such input was used as training data.
Conventional methods like membership inference can carry out this detection
with some level of accuracy. We show that watermarked training data leaves
traces easier to detect and much more reliable than membership inference. We
link the contamination level to the watermark robustness, its proportion in the
training set, and the fine-tuning process. We notably demonstrate that training
on watermarked synthetic instructions can be detected with high confidence
(p-value < 1e-5) even when as little as 5% of training text is watermarked.
Thus, LLM watermarking, originally designed for detecting machine-generated
text, gives the ability to easily identify if the outputs of a watermarked LLM
were used to fine-tune another LLM.