ChatPaper.aiChatPaper

Водяные знаки делают языковые модели радиоактивными

Watermarking Makes Language Models Radioactive

February 22, 2024
Авторы: Tom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon
cs.AI

Аннотация

В данной работе исследуется радиоактивность текстов, сгенерированных крупными языковыми моделями (LLM), то есть возможность обнаружения того, что такие данные использовались в качестве обучающего набора. Традиционные методы, такие как вывод о принадлежности, могут выполнять это обнаружение с определенной точностью. Мы показываем, что водяные знаки в обучающих данных оставляют следы, которые легче обнаружить и которые гораздо более надежны, чем вывод о принадлежности. Мы связываем уровень загрязнения с устойчивостью водяного знака, его долей в обучающем наборе и процессом тонкой настройки. В частности, мы демонстрируем, что обучение на синтетических инструкциях с водяными знаками может быть обнаружено с высокой степенью уверенности (p-значение < 1e-5) даже в случае, когда всего 5% обучающего текста содержит водяные знаки. Таким образом, водяные знаки в LLM, изначально разработанные для обнаружения машинно-сгенерированных текстов, позволяют легко определить, использовались ли выходы LLM с водяными знаками для тонкой настройки другой LLM.
English
This paper investigates the radioactivity of LLM-generated texts, i.e. whether it is possible to detect that such input was used as training data. Conventional methods like membership inference can carry out this detection with some level of accuracy. We show that watermarked training data leaves traces easier to detect and much more reliable than membership inference. We link the contamination level to the watermark robustness, its proportion in the training set, and the fine-tuning process. We notably demonstrate that training on watermarked synthetic instructions can be detected with high confidence (p-value < 1e-5) even when as little as 5% of training text is watermarked. Thus, LLM watermarking, originally designed for detecting machine-generated text, gives the ability to easily identify if the outputs of a watermarked LLM were used to fine-tune another LLM.
PDF252December 15, 2024