ChatPaper.aiChatPaper

La marca de agua hace que los modelos de lenguaje sean radiactivos.

Watermarking Makes Language Models Radioactive

February 22, 2024
Autores: Tom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon
cs.AI

Resumen

Este artículo investiga la radioactividad de los textos generados por LLM, es decir, si es posible detectar que dichos datos se utilizaron como conjunto de entrenamiento. Métodos convencionales como la inferencia de pertenencia pueden llevar a cabo esta detección con cierto nivel de precisión. Demostramos que los datos de entrenamiento con marcas de agua dejan rastros más fáciles de detectar y mucho más confiables que la inferencia de pertenencia. Relacionamos el nivel de contaminación con la robustez de la marca de agua, su proporción en el conjunto de entrenamiento y el proceso de ajuste fino. En particular, demostramos que el entrenamiento con instrucciones sintéticas marcadas con agua puede detectarse con alta confianza (p-valor < 1e-5) incluso cuando tan solo el 5% del texto de entrenamiento está marcado. Por lo tanto, la marca de agua en LLM, originalmente diseñada para detectar texto generado por máquinas, permite identificar fácilmente si las salidas de un LLM marcado se utilizaron para ajustar otro LLM.
English
This paper investigates the radioactivity of LLM-generated texts, i.e. whether it is possible to detect that such input was used as training data. Conventional methods like membership inference can carry out this detection with some level of accuracy. We show that watermarked training data leaves traces easier to detect and much more reliable than membership inference. We link the contamination level to the watermark robustness, its proportion in the training set, and the fine-tuning process. We notably demonstrate that training on watermarked synthetic instructions can be detected with high confidence (p-value < 1e-5) even when as little as 5% of training text is watermarked. Thus, LLM watermarking, originally designed for detecting machine-generated text, gives the ability to easily identify if the outputs of a watermarked LLM were used to fine-tune another LLM.
PDF252December 15, 2024