ChatPaper.aiChatPaper

Sur la fiabilité des filigranes pour les modèles de langage à grande échelle

On the Reliability of Watermarks for Large Language Models

June 7, 2023
papers.authors: John Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum, Tom Goldstein
cs.AI

papers.abstract

Les grands modèles de langage (LLM) sont désormais déployés dans un usage quotidien et sont en mesure de produire de grandes quantités de texte au cours de la prochaine décennie. Le texte généré par des machines pourrait remplacer le texte écrit par des humains sur internet et pourrait être utilisé à des fins malveillantes, telles que des attaques de spearphishing ou des bots sur les réseaux sociaux. Le tatouage numérique (watermarking) est une stratégie simple et efficace pour atténuer ces risques en permettant la détection et la documentation du texte généré par des LLM. Cependant, une question cruciale demeure : quelle est la fiabilité du tatouage numérique dans des conditions réalistes et variées ? Dans ces contextes, le texte tatoué pourrait être mélangé à d'autres sources de texte, paraphrasé par des rédacteurs humains ou d'autres modèles de langage, et utilisé dans un large éventail de domaines, tant sociaux que techniques. Dans cet article, nous explorons différents schémas de détection, quantifions leur efficacité pour identifier les tatouages, et déterminons la quantité de texte généré par machine nécessaire pour détecter de manière fiable le tatouage dans chaque scénario. Nous mettons particulièrement en avant notre étude humaine, où nous examinons la fiabilité du tatouage face à la paraphrase humaine. Nous comparons la détection basée sur le tatouage à d'autres stratégies de détection, et constatons globalement que le tatouage numérique est une solution fiable, notamment en raison de sa complexité d'échantillonnage - pour toutes les attaques que nous considérons, les preuves du tatouage s'accumulent à mesure que davantage d'exemples sont fournis, et le tatouage est finalement détecté.
English
Large language models (LLMs) are now deployed to everyday use and positioned to produce large quantities of text in the coming decade. Machine-generated text may displace human-written text on the internet and has the potential to be used for malicious purposes, such as spearphishing attacks and social media bots. Watermarking is a simple and effective strategy for mitigating such harms by enabling the detection and documentation of LLM-generated text. Yet, a crucial question remains: How reliable is watermarking in realistic settings in the wild? There, watermarked text might be mixed with other text sources, paraphrased by human writers or other language models, and used for applications in a broad number of domains, both social and technical. In this paper, we explore different detection schemes, quantify their power at detecting watermarks, and determine how much machine-generated text needs to be observed in each scenario to reliably detect the watermark. We especially highlight our human study, where we investigate the reliability of watermarking when faced with human paraphrasing. We compare watermark-based detection to other detection strategies, finding overall that watermarking is a reliable solution, especially because of its sample complexity - for all attacks we consider, the watermark evidence compounds the more examples are given, and the watermark is eventually detected.
PDF61December 15, 2024