LLM's spotten met een verrekijker: Zero-shot detectie van machinaal gegenereerde tekst

Samenvatting

Het detecteren van tekst die gegenereerd is door moderne grote taalmodellen wordt als moeilijk beschouwd, omdat zowel LLM's als mensen een breed scala aan complex gedrag kunnen vertonen. Wij ontdekken echter dat een score gebaseerd op het vergelijken van twee nauw verwante taalmodellen zeer nauwkeurig is in het onderscheiden van door mensen gegenereerde en door machines gegenereerde tekst. Op basis van dit mechanisme stellen we een nieuwe LLM-detector voor die alleen eenvoudige berekeningen vereist met behulp van een paar vooraf getrainde LLM's. De methode, genaamd Binoculars, bereikt state-of-the-art nauwkeurigheid zonder enige trainingsdata. Het is in staat om machinetekst van een reeks moderne LLM's te herkennen zonder enige modelspecifieke aanpassingen. We evalueren Binoculars uitgebreid op een aantal tekstbronnen en in verschillende situaties. Over een breed scala aan documenttypen detecteert Binoculars meer dan 90% van de gegenereerde samples van ChatGPT (en andere LLM's) bij een vals-positief percentage van 0,01%, ondanks dat het niet getraind is op enige ChatGPT-data.

English

Detecting text generated by modern large language models is thought to be hard, as both LLMs and humans can exhibit a wide range of complex behaviors. However, we find that a score based on contrasting two closely related language models is highly accurate at separating human-generated and machine-generated text. Based on this mechanism, we propose a novel LLM detector that only requires simple calculations using a pair of pre-trained LLMs. The method, called Binoculars, achieves state-of-the-art accuracy without any training data. It is capable of spotting machine text from a range of modern LLMs without any model-specific modifications. We comprehensively evaluate Binoculars on a number of text sources and in varied situations. Over a wide range of document types, Binoculars detects over 90% of generated samples from ChatGPT (and other LLMs) at a false positive rate of 0.01%, despite not being trained on any ChatGPT data.

LLM's spotten met een verrekijker: Zero-shot detectie van machinaal gegenereerde tekst

Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

Samenvatting

Support