Bot ou Humain ? Détecter les imposteurs de ChatGPT avec une seule question
Bot or Human? Detecting ChatGPT Imposters with A Single Question
May 10, 2023
Auteurs: Hong Wang, Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI
Résumé
Les grands modèles de langage comme ChatGPT ont récemment démontré des capacités impressionnantes en compréhension et génération du langage naturel, permettant diverses applications telles que la traduction, la rédaction d'essais et les conversations informelles. Cependant, il existe une préoccupation quant à leur possible utilisation à des fins malveillantes, comme la fraude ou les attaques par déni de service. Il est donc crucial de développer des méthodes pour détecter si l'interlocuteur dans une conversation est un bot ou un humain. Dans cet article, nous proposons un cadre nommé FLAIR (Finding Large language model Authenticity via a single Inquiry and Response) pour détecter les bots conversationnels en ligne. Plus précisément, nous ciblons un scénario à question unique qui peut efficacement différencier les utilisateurs humains des bots. Les questions sont divisées en deux catégories : celles qui sont faciles pour les humains mais difficiles pour les bots (par exemple, le comptage, la substitution, le positionnement, le filtrage de bruit et l'art ASCII), et celles qui sont faciles pour les bots mais difficiles pour les humains (par exemple, la mémorisation et le calcul). Notre approche montre les différentes forces de ces questions en termes d'efficacité, offrant une nouvelle manière pour les fournisseurs de services en ligne de se protéger contre les activités néfastes et de s'assurer qu'ils servent de vrais utilisateurs. Nous avons ouvert notre jeu de données sur https://github.com/hongwang600/FLAIR et accueillons les contributions de la communauté pour enrichir ces ensembles de données de détection.
English
Large language models like ChatGPT have recently demonstrated impressive
capabilities in natural language understanding and generation, enabling various
applications including translation, essay writing, and chit-chatting. However,
there is a concern that they can be misused for malicious purposes, such as
fraud or denial-of-service attacks. Therefore, it is crucial to develop methods
for detecting whether the party involved in a conversation is a bot or a human.
In this paper, we propose a framework named FLAIR, Finding Large language model
Authenticity via a single Inquiry and Response, to detect conversational bots
in an online manner. Specifically, we target a single question scenario that
can effectively differentiate human users from bots. The questions are divided
into two categories: those that are easy for humans but difficult for bots
(e.g., counting, substitution, positioning, noise filtering, and ASCII art),
and those that are easy for bots but difficult for humans (e.g., memorization
and computation). Our approach shows different strengths of these questions in
their effectiveness, providing a new way for online service providers to
protect themselves against nefarious activities and ensure that they are
serving real users. We open-sourced our dataset on
https://github.com/hongwang600/FLAIR and welcome contributions from the
community to enrich such detection datasets.