ChatPaper.aiChatPaper

Le tatouage numérique rend les modèles de langage radioactifs

Watermarking Makes Language Models Radioactive

February 22, 2024
Auteurs: Tom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon
cs.AI

Résumé

Cet article étudie la radioactivité des textes générés par des LLM, c'est-à-dire la possibilité de détecter si de tels textes ont été utilisés comme données d'entraînement. Les méthodes conventionnelles telles que l'inférence d'appartenance peuvent réaliser cette détection avec un certain niveau de précision. Nous montrons que les données d'entraînement marquées par tatouage laissent des traces plus faciles à détecter et bien plus fiables que l'inférence d'appartenance. Nous établissons un lien entre le niveau de contamination, la robustesse du tatouage, sa proportion dans l'ensemble d'entraînement et le processus de fine-tuning. Nous démontrons notamment que l'entraînement sur des instructions synthétiques marquées peut être détecté avec une grande confiance (p-valeur < 1e-5) même lorsque seulement 5 % du texte d'entraînement est marqué. Ainsi, le tatouage des LLM, initialement conçu pour détecter les textes générés par machine, permet d'identifier facilement si les sorties d'un LLM marqué ont été utilisées pour fine-tuner un autre LLM.
English
This paper investigates the radioactivity of LLM-generated texts, i.e. whether it is possible to detect that such input was used as training data. Conventional methods like membership inference can carry out this detection with some level of accuracy. We show that watermarked training data leaves traces easier to detect and much more reliable than membership inference. We link the contamination level to the watermark robustness, its proportion in the training set, and the fine-tuning process. We notably demonstrate that training on watermarked synthetic instructions can be detected with high confidence (p-value < 1e-5) even when as little as 5% of training text is watermarked. Thus, LLM watermarking, originally designed for detecting machine-generated text, gives the ability to easily identify if the outputs of a watermarked LLM were used to fine-tune another LLM.
PDF252December 15, 2024