Bot o Umano? Riconoscere gli Impostori di ChatGPT con una Singola Domanda
Bot or Human? Detecting ChatGPT Imposters with A Single Question
May 10, 2023
Autori: Hong Wang, Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI
Abstract
I grandi modelli linguistici come ChatGPT hanno recentemente dimostrato capacità impressionanti nella comprensione e generazione del linguaggio naturale, abilitando varie applicazioni tra cui traduzione, scrittura di saggi e conversazioni informali. Tuttavia, esiste il timore che possano essere utilizzati in modo improprio per scopi malevoli, come frodi o attacchi di denial-of-service. Pertanto, è cruciale sviluppare metodi per rilevare se la parte coinvolta in una conversazione sia un bot o un essere umano. In questo articolo, proponiamo un framework denominato FLAIR, Finding Large language model Authenticity via a single Inquiry and Response, per rilevare i bot conversazionali in modo online. Nello specifico, ci concentriamo su uno scenario a singola domanda che possa differenziare efficacemente gli utenti umani dai bot. Le domande sono divise in due categorie: quelle facili per gli esseri umani ma difficili per i bot (ad esempio, conteggio, sostituzione, posizionamento, filtraggio del rumore e ASCII art), e quelle facili per i bot ma difficili per gli esseri umani (ad esempio, memorizzazione e calcolo). Il nostro approccio mostra diversi punti di forza di queste domande nella loro efficacia, fornendo un nuovo modo per i fornitori di servizi online di proteggersi da attività nefaste e garantire di servire utenti reali. Abbiamo reso disponibile il nostro dataset su https://github.com/hongwang600/FLAIR e accogliamo con favore i contributi della comunità per arricchire tali dataset di rilevamento.
English
Large language models like ChatGPT have recently demonstrated impressive
capabilities in natural language understanding and generation, enabling various
applications including translation, essay writing, and chit-chatting. However,
there is a concern that they can be misused for malicious purposes, such as
fraud or denial-of-service attacks. Therefore, it is crucial to develop methods
for detecting whether the party involved in a conversation is a bot or a human.
In this paper, we propose a framework named FLAIR, Finding Large language model
Authenticity via a single Inquiry and Response, to detect conversational bots
in an online manner. Specifically, we target a single question scenario that
can effectively differentiate human users from bots. The questions are divided
into two categories: those that are easy for humans but difficult for bots
(e.g., counting, substitution, positioning, noise filtering, and ASCII art),
and those that are easy for bots but difficult for humans (e.g., memorization
and computation). Our approach shows different strengths of these questions in
their effectiveness, providing a new way for online service providers to
protect themselves against nefarious activities and ensure that they are
serving real users. We open-sourced our dataset on
https://github.com/hongwang600/FLAIR and welcome contributions from the
community to enrich such detection datasets.