Надежное и детектирование с высокой степенью детализации текстов, созданных искусственным интеллектом
Robust and Fine-Grained Detection of AI Generated Texts
April 16, 2025
Авторы: Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Kanwal Mehreen, Drishti Sharma, Siddhant Gupta, Jebish Purbey, Ashay Srivastava, Subhasya TippaReddy, Arvind Reddy Bobbili, Suraj Telugara Chandrashekhar, Modabbir Adeeb, Srinadh Vura, Hamza Farooq
cs.AI
Аннотация
Идеальная система обнаружения машинно-сгенерированного контента должна эффективно работать с любыми генераторами, учитывая, что более продвинутые языковые модели (LLM) появляются с каждым днем. Существующие системы часто испытывают трудности с точным определением контента, созданного ИИ, особенно в случае коротких текстов. Более того, не все тексты могут быть полностью написаны человеком или LLM, поэтому мы сосредоточились на частичных случаях, то есть текстах, созданных в соавторстве человеком и LLM. В нашей статье представлен набор моделей, разработанных для задачи классификации токенов, которые были обучены на обширной коллекции текстов, созданных в соавторстве человеком и машиной. Эти модели показали хорошие результаты на текстах из неизвестных доменов, созданных неизвестными генераторами, текстах, написанных не носителями языка, а также на текстах с враждебными входами. Мы также представляем новый набор данных, содержащий более 2,4 млн таких текстов, в основном созданных в соавторстве несколькими популярными проприетарными LLM на 23 языках. В статье также приводятся результаты оценки производительности наших моделей на текстах каждого домена и генератора. Дополнительные результаты включают сравнение производительности для каждого метода враждебного воздействия, длины входных текстов и характеристик сгенерированных текстов по сравнению с оригинальными текстами, написанными человеком.
English
An ideal detection system for machine generated content is supposed to work
well on any generator as many more advanced LLMs come into existence day by
day. Existing systems often struggle with accurately identifying AI-generated
content over shorter texts. Further, not all texts might be entirely authored
by a human or LLM, hence we focused more over partial cases i.e human-LLM
co-authored texts. Our paper introduces a set of models built for the task of
token classification which are trained on an extensive collection of
human-machine co-authored texts, which performed well over texts of unseen
domains, unseen generators, texts by non-native speakers and those with
adversarial inputs. We also introduce a new dataset of over 2.4M such texts
mostly co-authored by several popular proprietary LLMs over 23 languages. We
also present findings of our models' performance over each texts of each domain
and generator. Additional findings include comparison of performance against
each adversarial method, length of input texts and characteristics of generated
texts compared to the original human authored texts.Summary
AI-Generated Summary