Бот или человек? Выявление самозванцев ChatGPT с помощью одного вопроса
Bot or Human? Detecting ChatGPT Imposters with A Single Question
May 10, 2023
Авторы: Hong Wang, Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI
Аннотация
Крупные языковые модели, такие как ChatGPT, недавно продемонстрировали впечатляющие способности в понимании и генерации естественного языка, что открыло возможности для различных приложений, включая перевод, написание эссе и ведение бесед. Однако существует опасение, что их можно использовать в злонамеренных целях, таких как мошенничество или атаки на отказ в обслуживании. Поэтому крайне важно разработать методы для определения, является ли участник диалога ботом или человеком. В данной статье мы предлагаем фреймворк под названием FLAIR (Finding Large language model Authenticity via a single Inquiry and Response) для обнаружения диалоговых ботов в режиме онлайн. В частности, мы ориентируемся на сценарий с одним вопросом, который может эффективно отличать пользователей-людей от ботов. Вопросы делятся на две категории: те, которые легки для людей, но сложны для ботов (например, подсчет, замена, позиционирование, фильтрация шума и ASCII-арт), и те, которые легки для ботов, но сложны для людей (например, запоминание и вычисления). Наш подход демонстрирует различные сильные стороны этих вопросов в их эффективности, предоставляя новый способ для онлайн-сервисов защититься от злонамеренной деятельности и убедиться, что они обслуживают реальных пользователей. Мы открыли доступ к нашему набору данных на https://github.com/hongwang600/FLAIR и приветствуем вклад сообщества в обогащение таких наборов данных для обнаружения.
English
Large language models like ChatGPT have recently demonstrated impressive
capabilities in natural language understanding and generation, enabling various
applications including translation, essay writing, and chit-chatting. However,
there is a concern that they can be misused for malicious purposes, such as
fraud or denial-of-service attacks. Therefore, it is crucial to develop methods
for detecting whether the party involved in a conversation is a bot or a human.
In this paper, we propose a framework named FLAIR, Finding Large language model
Authenticity via a single Inquiry and Response, to detect conversational bots
in an online manner. Specifically, we target a single question scenario that
can effectively differentiate human users from bots. The questions are divided
into two categories: those that are easy for humans but difficult for bots
(e.g., counting, substitution, positioning, noise filtering, and ASCII art),
and those that are easy for bots but difficult for humans (e.g., memorization
and computation). Our approach shows different strengths of these questions in
their effectiveness, providing a new way for online service providers to
protect themselves against nefarious activities and ensure that they are
serving real users. We open-sourced our dataset on
https://github.com/hongwang600/FLAIR and welcome contributions from the
community to enrich such detection datasets.