봇인가 인간인가? 단 하나의 질문으로 ChatGPT 사칭자 탐지하기
Bot or Human? Detecting ChatGPT Imposters with A Single Question
May 10, 2023
저자: Hong Wang, Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI
초록
ChatGPT와 같은 대형 언어 모델은 최근 자연어 이해 및 생성 분야에서 인상적인 능력을 보여주며, 번역, 에세이 작성, 잡담 등 다양한 응용 분야에서 활용되고 있습니다. 그러나 이러한 모델이 사기나 서비스 거부 공격과 같은 악의적인 목적으로 악용될 가능성에 대한 우려도 제기되고 있습니다. 따라서 대화 상대가 봇인지 인간인지를 감지하는 방법을 개발하는 것이 중요합니다. 본 논문에서는 온라인 방식으로 대화 봇을 탐지하기 위해 FLAIR(Finding Large language model Authenticity via a single Inquiry and Response)라는 프레임워크를 제안합니다. 구체적으로, 인간 사용자와 봇을 효과적으로 구분할 수 있는 단일 질문 시나리오를 대상으로 합니다. 질문은 인간에게는 쉽지만 봇에게는 어려운 유형(예: 계수, 대체, 위치 지정, 노이즈 필터링, ASCII 아트)과 봇에게는 쉽지만 인간에게는 어려운 유형(예: 암기 및 계산)으로 나뉩니다. 우리의 접근 방식은 이러한 질문들의 효과성에서 서로 다른 강점을 보여주며, 온라인 서비스 제공자들이 악의적인 활동으로부터 스스로를 보호하고 실제 사용자에게 서비스를 제공할 수 있는 새로운 방법을 제시합니다. 우리는 데이터셋을 https://github.com/hongwang600/FLAIR 에 공개했으며, 커뮤니티의 기여를 통해 이러한 탐지 데이터셋을 더욱 풍부하게 만들기를 기대합니다.
English
Large language models like ChatGPT have recently demonstrated impressive
capabilities in natural language understanding and generation, enabling various
applications including translation, essay writing, and chit-chatting. However,
there is a concern that they can be misused for malicious purposes, such as
fraud or denial-of-service attacks. Therefore, it is crucial to develop methods
for detecting whether the party involved in a conversation is a bot or a human.
In this paper, we propose a framework named FLAIR, Finding Large language model
Authenticity via a single Inquiry and Response, to detect conversational bots
in an online manner. Specifically, we target a single question scenario that
can effectively differentiate human users from bots. The questions are divided
into two categories: those that are easy for humans but difficult for bots
(e.g., counting, substitution, positioning, noise filtering, and ASCII art),
and those that are easy for bots but difficult for humans (e.g., memorization
and computation). Our approach shows different strengths of these questions in
their effectiveness, providing a new way for online service providers to
protect themselves against nefarious activities and ensure that they are
serving real users. We open-sourced our dataset on
https://github.com/hongwang600/FLAIR and welcome contributions from the
community to enrich such detection datasets.