LLM's spotten met een verrekijker: Zero-shot detectie van machinaal gegenereerde tekst
Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text
January 22, 2024
Auteurs: Abhimanyu Hans, Avi Schwarzschild, Valeriia Cherepanova, Hamid Kazemi, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI
Samenvatting
Het detecteren van tekst die gegenereerd is door moderne grote taalmodellen wordt als moeilijk beschouwd, omdat zowel LLM's als mensen een breed scala aan complex gedrag kunnen vertonen. Wij ontdekken echter dat een score gebaseerd op het vergelijken van twee nauw verwante taalmodellen zeer nauwkeurig is in het onderscheiden van door mensen gegenereerde en door machines gegenereerde tekst. Op basis van dit mechanisme stellen we een nieuwe LLM-detector voor die alleen eenvoudige berekeningen vereist met behulp van een paar vooraf getrainde LLM's. De methode, genaamd Binoculars, bereikt state-of-the-art nauwkeurigheid zonder enige trainingsdata. Het is in staat om machinetekst van een reeks moderne LLM's te herkennen zonder enige modelspecifieke aanpassingen. We evalueren Binoculars uitgebreid op een aantal tekstbronnen en in verschillende situaties. Over een breed scala aan documenttypen detecteert Binoculars meer dan 90% van de gegenereerde samples van ChatGPT (en andere LLM's) bij een vals-positief percentage van 0,01%, ondanks dat het niet getraind is op enige ChatGPT-data.
English
Detecting text generated by modern large language models is thought to be
hard, as both LLMs and humans can exhibit a wide range of complex behaviors.
However, we find that a score based on contrasting two closely related language
models is highly accurate at separating human-generated and machine-generated
text. Based on this mechanism, we propose a novel LLM detector that only
requires simple calculations using a pair of pre-trained LLMs. The method,
called Binoculars, achieves state-of-the-art accuracy without any training
data. It is capable of spotting machine text from a range of modern LLMs
without any model-specific modifications. We comprehensively evaluate
Binoculars on a number of text sources and in varied situations. Over a wide
range of document types, Binoculars detects over 90% of generated samples from
ChatGPT (and other LLMs) at a false positive rate of 0.01%, despite not being
trained on any ChatGPT data.