Il watermarking rende i modelli linguistici radioattivi
Watermarking Makes Language Models Radioactive
February 22, 2024
Autori: Tom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon
cs.AI
Abstract
Questo articolo indaga la radioattività dei testi generati da LLM, ovvero se sia possibile rilevare che tali input siano stati utilizzati come dati di addestramento. Metodi convenzionali come l'inferenza di appartenenza possono eseguire questo rilevamento con un certo livello di accuratezza. Dimostriamo che i dati di addestramento contrassegnati da watermark lasciano tracce più facili da rilevare e molto più affidabili rispetto all'inferenza di appartenenza. Colleghiamo il livello di contaminazione alla robustezza del watermark, alla sua proporzione nel set di addestramento e al processo di fine-tuning. In particolare, dimostriamo che l'addestramento su istruzioni sintetiche contrassegnate da watermark può essere rilevato con alta confidenza (p-value < 1e-5) anche quando solo il 5% del testo di addestramento è contrassegnato. Pertanto, il watermarking degli LLM, originariamente progettato per rilevare testi generati da macchine, offre la capacità di identificare facilmente se gli output di un LLM contrassegnato da watermark siano stati utilizzati per il fine-tuning di un altro LLM.
English
This paper investigates the radioactivity of LLM-generated texts, i.e.
whether it is possible to detect that such input was used as training data.
Conventional methods like membership inference can carry out this detection
with some level of accuracy. We show that watermarked training data leaves
traces easier to detect and much more reliable than membership inference. We
link the contamination level to the watermark robustness, its proportion in the
training set, and the fine-tuning process. We notably demonstrate that training
on watermarked synthetic instructions can be detected with high confidence
(p-value < 1e-5) even when as little as 5% of training text is watermarked.
Thus, LLM watermarking, originally designed for detecting machine-generated
text, gives the ability to easily identify if the outputs of a watermarked LLM
were used to fine-tune another LLM.