Sull'affidabilità delle filigrane digitali per i modelli linguistici di grandi dimensioni

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono ora impiegati nell'uso quotidiano e si prevede che produrranno grandi quantità di testo nel prossimo decennio. Il testo generato automaticamente potrebbe sostituire quello scritto da esseri umani su Internet e ha il potenziale di essere utilizzato per scopi malevoli, come attacchi di spearphishing e bot sui social media. La filigrana digitale è una strategia semplice ed efficace per mitigare tali danni, consentendo il rilevamento e la documentazione del testo generato da LLM. Tuttavia, rimane una domanda cruciale: quanto è affidabile la filigrana in contesti realistici nel mondo reale? In tali contesti, il testo con filigrana potrebbe essere mescolato con altre fonti di testo, parafrasato da scrittori umani o altri modelli linguistici, e utilizzato per applicazioni in un ampio numero di domini, sia sociali che tecnici. In questo articolo, esploriamo diversi schemi di rilevamento, quantifichiamo la loro efficacia nel rilevare le filigrane e determiniamo quanto testo generato automaticamente deve essere osservato in ogni scenario per rilevare in modo affidabile la filigrana. In particolare, evidenziamo il nostro studio umano, in cui indaghiamo l'affidabilità della filigrana di fronte alla parafrasi umana. Confrontiamo il rilevamento basato su filigrana con altre strategie di rilevamento, riscontrando in generale che la filigrana è una soluzione affidabile, soprattutto per la sua complessità campionaria: per tutti gli attacchi che consideriamo, l'evidenza della filigrana si accumula man mano che vengono forniti più esempi, e la filigrana viene infine rilevata.

English

Large language models (LLMs) are now deployed to everyday use and positioned to produce large quantities of text in the coming decade. Machine-generated text may displace human-written text on the internet and has the potential to be used for malicious purposes, such as spearphishing attacks and social media bots. Watermarking is a simple and effective strategy for mitigating such harms by enabling the detection and documentation of LLM-generated text. Yet, a crucial question remains: How reliable is watermarking in realistic settings in the wild? There, watermarked text might be mixed with other text sources, paraphrased by human writers or other language models, and used for applications in a broad number of domains, both social and technical. In this paper, we explore different detection schemes, quantify their power at detecting watermarks, and determine how much machine-generated text needs to be observed in each scenario to reliably detect the watermark. We especially highlight our human study, where we investigate the reliability of watermarking when faced with human paraphrasing. We compare watermark-based detection to other detection strategies, finding overall that watermarking is a reliable solution, especially because of its sample complexity - for all attacks we consider, the watermark evidence compounds the more examples are given, and the watermark is eventually detected.

Sull'affidabilità delle filigrane digitali per i modelli linguistici di grandi dimensioni

On the Reliability of Watermarks for Large Language Models

Abstract

Support