ChatPaper.aiChatPaper

A marca d'água torna os modelos de linguagem radioativos.

Watermarking Makes Language Models Radioactive

February 22, 2024
Autores: Tom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon
cs.AI

Resumo

Este artigo investiga a radioatividade de textos gerados por LLMs, ou seja, se é possível detectar que tais dados foram utilizados como conjunto de treinamento. Métodos convencionais, como inferência de associação, podem realizar essa detecção com algum nível de precisão. Mostramos que dados de treinamento marcados com "watermark" deixam vestígios mais fáceis de detectar e muito mais confiáveis do que a inferência de associação. Relacionamos o nível de contaminação à robustez do "watermark", sua proporção no conjunto de treinamento e ao processo de ajuste fino. Demonstramos, em particular, que o treinamento com instruções sintéticas marcadas pode ser detectado com alta confiança (p-valor < 1e-5) mesmo quando apenas 5% do texto de treinamento está marcado. Assim, a marcação de "watermark" em LLMs, originalmente projetada para detectar textos gerados por máquinas, permite identificar facilmente se as saídas de um LLM marcado foram usadas para ajustar outro LLM.
English
This paper investigates the radioactivity of LLM-generated texts, i.e. whether it is possible to detect that such input was used as training data. Conventional methods like membership inference can carry out this detection with some level of accuracy. We show that watermarked training data leaves traces easier to detect and much more reliable than membership inference. We link the contamination level to the watermark robustness, its proportion in the training set, and the fine-tuning process. We notably demonstrate that training on watermarked synthetic instructions can be detected with high confidence (p-value < 1e-5) even when as little as 5% of training text is watermarked. Thus, LLM watermarking, originally designed for detecting machine-generated text, gives the ability to easily identify if the outputs of a watermarked LLM were used to fine-tune another LLM.
PDF242December 15, 2024