Tre Mattoni per Consolidare le Filigrane nei Modelli Linguistici di Grande Dimensione

Abstract

Il compito di distinguere tra testi generati e naturali sta diventando sempre più complesso. In questo contesto, la filigrana digitale emerge come una tecnica promettente per attribuire il testo generato a un modello specifico. Essa modifica il processo di generazione campionaria in modo da lasciare una traccia invisibile nell'output generato, facilitandone la successiva rilevazione. Questa ricerca consolida le filigrane digitali per i modelli linguistici di grandi dimensioni basandosi su tre considerazioni teoriche ed empiriche. In primo luogo, introduciamo nuovi test statistici che offrono garanzie teoriche robuste, valide anche a bassi tassi di falsi positivi (inferiori a 10^{-6}). In secondo luogo, confrontiamo l'efficacia delle filigrane utilizzando benchmark classici nel campo dell'elaborazione del linguaggio naturale, ottenendo approfondimenti sulla loro applicabilità nel mondo reale. In terzo luogo, sviluppiamo schemi di rilevazione avanzati per scenari in cui è disponibile l'accesso al modello linguistico, nonché filigrane digitali multi-bit.

English

The task of discerning between generated and natural texts is increasingly challenging. In this context, watermarking emerges as a promising technique for ascribing generated text to a specific model. It alters the sampling generation process so as to leave an invisible trace in the generated output, facilitating later detection. This research consolidates watermarks for large language models based on three theoretical and empirical considerations. First, we introduce new statistical tests that offer robust theoretical guarantees which remain valid even at low false-positive rates (less than 10^{-6}). Second, we compare the effectiveness of watermarks using classical benchmarks in the field of natural language processing, gaining insights into their real-world applicability. Third, we develop advanced detection schemes for scenarios where access to the LLM is available, as well as multi-bit watermarking.

Tre Mattoni per Consolidare le Filigrane nei Modelli Linguistici di Grande Dimensione

Three Bricks to Consolidate Watermarks for Large Language Models

Abstract

Support