Sull'affidabilità delle filigrane digitali per i modelli linguistici di grandi dimensioni
On the Reliability of Watermarks for Large Language Models
June 7, 2023
Autori: John Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum, Tom Goldstein
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono ora impiegati nell'uso quotidiano e si prevede che produrranno grandi quantità di testo nel prossimo decennio. Il testo generato automaticamente potrebbe sostituire quello scritto da esseri umani su Internet e ha il potenziale di essere utilizzato per scopi malevoli, come attacchi di spearphishing e bot sui social media. La filigrana digitale è una strategia semplice ed efficace per mitigare tali danni, consentendo il rilevamento e la documentazione del testo generato da LLM. Tuttavia, rimane una domanda cruciale: quanto è affidabile la filigrana in contesti realistici nel mondo reale? In tali contesti, il testo con filigrana potrebbe essere mescolato con altre fonti di testo, parafrasato da scrittori umani o altri modelli linguistici, e utilizzato per applicazioni in un ampio numero di domini, sia sociali che tecnici. In questo articolo, esploriamo diversi schemi di rilevamento, quantifichiamo la loro efficacia nel rilevare le filigrane e determiniamo quanto testo generato automaticamente deve essere osservato in ogni scenario per rilevare in modo affidabile la filigrana. In particolare, evidenziamo il nostro studio umano, in cui indaghiamo l'affidabilità della filigrana di fronte alla parafrasi umana. Confrontiamo il rilevamento basato su filigrana con altre strategie di rilevamento, riscontrando in generale che la filigrana è una soluzione affidabile, soprattutto per la sua complessità campionaria: per tutti gli attacchi che consideriamo, l'evidenza della filigrana si accumula man mano che vengono forniti più esempi, e la filigrana viene infine rilevata.
English
Large language models (LLMs) are now deployed to everyday use and positioned
to produce large quantities of text in the coming decade. Machine-generated
text may displace human-written text on the internet and has the potential to
be used for malicious purposes, such as spearphishing attacks and social media
bots. Watermarking is a simple and effective strategy for mitigating such harms
by enabling the detection and documentation of LLM-generated text. Yet, a
crucial question remains: How reliable is watermarking in realistic settings in
the wild? There, watermarked text might be mixed with other text sources,
paraphrased by human writers or other language models, and used for
applications in a broad number of domains, both social and technical. In this
paper, we explore different detection schemes, quantify their power at
detecting watermarks, and determine how much machine-generated text needs to be
observed in each scenario to reliably detect the watermark. We especially
highlight our human study, where we investigate the reliability of watermarking
when faced with human paraphrasing. We compare watermark-based detection to
other detection strategies, finding overall that watermarking is a reliable
solution, especially because of its sample complexity - for all attacks we
consider, the watermark evidence compounds the more examples are given, and the
watermark is eventually detected.