Обнаружение языковых моделей в бинокль: нулевой сценарий выявления машинно-сгенерированного текста

Аннотация

Обнаружение текста, сгенерированного современными большими языковыми моделями (LLM), считается сложной задачей, поскольку как LLM, так и люди могут демонстрировать широкий спектр сложных поведений. Однако мы обнаружили, что оценка, основанная на сравнении двух тесно связанных языковых моделей, является высокоточным методом для разделения текста, созданного человеком и машиной. На основе этого механизма мы предлагаем новый детектор LLM, который требует только простых вычислений с использованием пары предварительно обученных LLM. Метод, названный Binoculars, достигает наилучшей точности без необходимости использования обучающих данных. Он способен обнаруживать машинный текст из широкого спектра современных LLM без каких-либо модификаций, специфичных для конкретной модели. Мы всесторонне оцениваем Binoculars на различных источниках текста и в различных ситуациях. На широком диапазоне типов документов Binoculars обнаруживает более 90% сгенерированных образцов от ChatGPT (и других LLM) при уровне ложноположительных срабатываний 0,01%, несмотря на отсутствие обучения на данных ChatGPT.

English

Detecting text generated by modern large language models is thought to be hard, as both LLMs and humans can exhibit a wide range of complex behaviors. However, we find that a score based on contrasting two closely related language models is highly accurate at separating human-generated and machine-generated text. Based on this mechanism, we propose a novel LLM detector that only requires simple calculations using a pair of pre-trained LLMs. The method, called Binoculars, achieves state-of-the-art accuracy without any training data. It is capable of spotting machine text from a range of modern LLMs without any model-specific modifications. We comprehensively evaluate Binoculars on a number of text sources and in varied situations. Over a wide range of document types, Binoculars detects over 90% of generated samples from ChatGPT (and other LLMs) at a false positive rate of 0.01%, despite not being trained on any ChatGPT data.

Обнаружение языковых моделей в бинокль: нулевой сценарий выявления машинно-сгенерированного текста

Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

Аннотация

Support