Tre Mattoni per Consolidare le Filigrane nei Modelli Linguistici di Grande Dimensione
Three Bricks to Consolidate Watermarks for Large Language Models
July 26, 2023
Autori: Pierre Fernandez, Antoine Chaffin, Karim Tit, Vivien Chappelier, Teddy Furon
cs.AI
Abstract
Il compito di distinguere tra testi generati e naturali sta diventando sempre più complesso. In questo contesto, la filigrana digitale emerge come una tecnica promettente per attribuire il testo generato a un modello specifico. Essa modifica il processo di generazione campionaria in modo da lasciare una traccia invisibile nell'output generato, facilitandone la successiva rilevazione. Questa ricerca consolida le filigrane digitali per i modelli linguistici di grandi dimensioni basandosi su tre considerazioni teoriche ed empiriche. In primo luogo, introduciamo nuovi test statistici che offrono garanzie teoriche robuste, valide anche a bassi tassi di falsi positivi (inferiori a 10^{-6}). In secondo luogo, confrontiamo l'efficacia delle filigrane utilizzando benchmark classici nel campo dell'elaborazione del linguaggio naturale, ottenendo approfondimenti sulla loro applicabilità nel mondo reale. In terzo luogo, sviluppiamo schemi di rilevazione avanzati per scenari in cui è disponibile l'accesso al modello linguistico, nonché filigrane digitali multi-bit.
English
The task of discerning between generated and natural texts is increasingly
challenging. In this context, watermarking emerges as a promising technique for
ascribing generated text to a specific model. It alters the sampling generation
process so as to leave an invisible trace in the generated output, facilitating
later detection. This research consolidates watermarks for large language
models based on three theoretical and empirical considerations. First, we
introduce new statistical tests that offer robust theoretical guarantees which
remain valid even at low false-positive rates (less than 10^{-6}).
Second, we compare the effectiveness of watermarks using classical benchmarks
in the field of natural language processing, gaining insights into their
real-world applicability. Third, we develop advanced detection schemes for
scenarios where access to the LLM is available, as well as multi-bit
watermarking.