Individuare i Modelli Linguistici con il Binocolo: Rilevamento Zero-Shot del Testo Generato da Macchine

Abstract

Rilevare il testo generato dai moderni modelli linguistici di grandi dimensioni (LLM) è considerato difficile, poiché sia gli LLM che gli esseri umani possono esibire una vasta gamma di comportamenti complessi. Tuttavia, abbiamo scoperto che un punteggio basato sul confronto tra due modelli linguistici strettamente correlati è estremamente accurato nel distinguere il testo generato da esseri umani da quello generato da macchine. Basandoci su questo meccanismo, proponiamo un nuovo rilevatore di LLM che richiede solo semplici calcoli utilizzando una coppia di LLM pre-addestrati. Il metodo, chiamato Binocoli, raggiunge un'accuratezza all'avanguardia senza alcun dato di addestramento. È in grado di individuare il testo generato da una gamma di moderni LLM senza alcuna modifica specifica per il modello. Valutiamo in modo completo Binocoli su numerose fonti di testo e in situazioni variate. Su un'ampia gamma di tipi di documenti, Binocoli rileva oltre il 90% dei campioni generati da ChatGPT (e altri LLM) con un tasso di falsi positivi dello 0,01%, nonostante non sia stato addestrato su alcun dato di ChatGPT.

English

Detecting text generated by modern large language models is thought to be hard, as both LLMs and humans can exhibit a wide range of complex behaviors. However, we find that a score based on contrasting two closely related language models is highly accurate at separating human-generated and machine-generated text. Based on this mechanism, we propose a novel LLM detector that only requires simple calculations using a pair of pre-trained LLMs. The method, called Binoculars, achieves state-of-the-art accuracy without any training data. It is capable of spotting machine text from a range of modern LLMs without any model-specific modifications. We comprehensively evaluate Binoculars on a number of text sources and in varied situations. Over a wide range of document types, Binoculars detects over 90% of generated samples from ChatGPT (and other LLMs) at a false positive rate of 0.01%, despite not being trained on any ChatGPT data.

Individuare i Modelli Linguistici con il Binocolo: Rilevamento Zero-Shot del Testo Generato da Macchine

Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

Abstract

Support