Détection des LLM avec des jumelles : Identification sans apprentissage des textes générés par machine
Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text
January 22, 2024
Auteurs: Abhimanyu Hans, Avi Schwarzschild, Valeriia Cherepanova, Hamid Kazemi, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI
Résumé
La détection de texte généré par les modèles de langage modernes de grande envergure est considérée comme difficile, car ces modèles, tout comme les humains, peuvent manifester une large gamme de comportements complexes. Cependant, nous constatons qu’un score basé sur la comparaison de deux modèles de langage étroitement liés est très précis pour distinguer le texte généré par l’humain de celui généré par la machine. Sur la base de ce mécanisme, nous proposons un nouveau détecteur de modèles de langage qui ne nécessite que des calculs simples utilisant une paire de modèles pré-entraînés. Cette méthode, appelée Binoculars, atteint une précision de pointe sans nécessiter de données d’entraînement. Elle est capable d’identifier le texte généré par une variété de modèles de langage modernes sans aucune modification spécifique à un modèle. Nous évaluons de manière exhaustive Binoculars sur plusieurs sources de texte et dans diverses situations. Sur une large gamme de types de documents, Binoculars détecte plus de 90 % des échantillons générés par ChatGPT (et d’autres modèles de langage) avec un taux de faux positifs de 0,01 %, bien qu’il n’ait pas été entraîné sur des données spécifiques à ChatGPT.
English
Detecting text generated by modern large language models is thought to be
hard, as both LLMs and humans can exhibit a wide range of complex behaviors.
However, we find that a score based on contrasting two closely related language
models is highly accurate at separating human-generated and machine-generated
text. Based on this mechanism, we propose a novel LLM detector that only
requires simple calculations using a pair of pre-trained LLMs. The method,
called Binoculars, achieves state-of-the-art accuracy without any training
data. It is capable of spotting machine text from a range of modern LLMs
without any model-specific modifications. We comprehensively evaluate
Binoculars on a number of text sources and in varied situations. Over a wide
range of document types, Binoculars detects over 90% of generated samples from
ChatGPT (and other LLMs) at a false positive rate of 0.01%, despite not being
trained on any ChatGPT data.