ChatPaper.aiChatPaper

Watermarking maakt taalmodelle radioactief.

Watermarking Makes Language Models Radioactive

February 22, 2024
Auteurs: Tom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon
cs.AI

Samenvatting

Dit artikel onderzoekt de radioactiviteit van LLM-gegenereerde teksten, d.w.z. of het mogelijk is om te detecteren dat dergelijke input als trainingsdata is gebruikt. Conventionele methoden zoals lidmaatschapsinferentie kunnen deze detectie uitvoeren met een zekere mate van nauwkeurigheid. Wij tonen aan dat getraindata met een watermerk sporen achterlaat die gemakkelijker te detecteren en veel betrouwbaarder zijn dan lidmaatschapsinferentie. We koppelen het besmettingsniveau aan de robuustheid van het watermerk, de verhouding ervan in de trainingsset en het fine-tuningproces. We demonstreren met name dat training op gesynthetiseerde instructies met een watermerk met een hoge betrouwbaarheid kan worden gedetecteerd (p-waarde < 1e-5), zelfs wanneer slechts 5% van de trainingsdata een watermerk bevat. LLM-watermerking, oorspronkelijk ontworpen voor het detecteren van machine-gegenereerde tekst, maakt het dus mogelijk om eenvoudig te identificeren of de uitvoer van een LLM met een watermerk is gebruikt om een andere LLM te fine-tunen.
English
This paper investigates the radioactivity of LLM-generated texts, i.e. whether it is possible to detect that such input was used as training data. Conventional methods like membership inference can carry out this detection with some level of accuracy. We show that watermarked training data leaves traces easier to detect and much more reliable than membership inference. We link the contamination level to the watermark robustness, its proportion in the training set, and the fine-tuning process. We notably demonstrate that training on watermarked synthetic instructions can be detected with high confidence (p-value < 1e-5) even when as little as 5% of training text is watermarked. Thus, LLM watermarking, originally designed for detecting machine-generated text, gives the ability to easily identify if the outputs of a watermarked LLM were used to fine-tune another LLM.
PDF242December 15, 2024