Bot ou Humano? Detectando Impostores do ChatGPT com uma Única Pergunta
Bot or Human? Detecting ChatGPT Imposters with A Single Question
May 10, 2023
Autores: Hong Wang, Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI
Resumo
Grandes modelos de linguagem como o ChatGPT demonstraram recentemente capacidades impressionantes em compreensão e geração de linguagem natural, permitindo diversas aplicações, incluindo tradução, redação de ensaios e conversas casuais. No entanto, há uma preocupação de que eles possam ser mal utilizados para fins maliciosos, como fraudes ou ataques de negação de serviço. Portanto, é crucial desenvolver métodos para detectar se a parte envolvida em uma conversa é um bot ou um humano. Neste artigo, propomos uma estrutura chamada FLAIR, Finding Large language model Authenticity via a single Inquiry and Response (Encontrando Autenticidade de Grandes Modelos de Linguagem através de uma Única Pergunta e Resposta), para detectar bots conversacionais de maneira online. Especificamente, focamos em um cenário de pergunta única que pode diferenciar efetivamente usuários humanos de bots. As perguntas são divididas em duas categorias: aquelas que são fáceis para humanos, mas difíceis para bots (por exemplo, contagem, substituição, posicionamento, filtragem de ruído e arte ASCII), e aquelas que são fáceis para bots, mas difíceis para humanos (por exemplo, memorização e computação). Nossa abordagem mostra diferentes pontos fortes dessas perguntas em sua eficácia, fornecendo uma nova maneira para provedores de serviços online se protegerem contra atividades nefastas e garantirem que estão atendendo usuários reais. Disponibilizamos nosso conjunto de dados em https://github.com/hongwang600/FLAIR e damos as boas-vindas a contribuições da comunidade para enriquecer tais conjuntos de dados de detecção.
English
Large language models like ChatGPT have recently demonstrated impressive
capabilities in natural language understanding and generation, enabling various
applications including translation, essay writing, and chit-chatting. However,
there is a concern that they can be misused for malicious purposes, such as
fraud or denial-of-service attacks. Therefore, it is crucial to develop methods
for detecting whether the party involved in a conversation is a bot or a human.
In this paper, we propose a framework named FLAIR, Finding Large language model
Authenticity via a single Inquiry and Response, to detect conversational bots
in an online manner. Specifically, we target a single question scenario that
can effectively differentiate human users from bots. The questions are divided
into two categories: those that are easy for humans but difficult for bots
(e.g., counting, substitution, positioning, noise filtering, and ASCII art),
and those that are easy for bots but difficult for humans (e.g., memorization
and computation). Our approach shows different strengths of these questions in
their effectiveness, providing a new way for online service providers to
protect themselves against nefarious activities and ensure that they are
serving real users. We open-sourced our dataset on
https://github.com/hongwang600/FLAIR and welcome contributions from the
community to enrich such detection datasets.