ChatPaper.aiChatPaper

인간인가 아닌가? 튜링 테스트에 대한 게임화된 접근

Human or Not? A Gamified Approach to the Turing Test

May 31, 2023
저자: Daniel Jannai, Amos Meron, Barak Lenz, Yoav Levine, Yoav Shoham
cs.AI

초록

"인간인가 아닌가?"라는 튜링 테스트에서 영감을 받은 온라인 게임을 소개한다. 이 게임은 AI 챗봇이 대화에서 인간을 모방하는 능력과 인간이 봇과 다른 인간을 구별하는 능력을 측정한다. 한 달 동안 진행된 이 게임은 150만 명 이상의 사용자가 참여했으며, 익명의 2분 채팅 세션을 통해 다른 인간 또는 인간처럼 행동하도록 설정된 AI 언어 모델과 대화를 나누었다. 플레이어의 임무는 자신이 대화한 상대가 인간인지 AI인지를 정확히 맞추는 것이었다. 지금까지 진행된 가장 대규모의 튜링 스타일 테스트에서 몇 가지 흥미로운 사실이 밝혀졌다. 예를 들어, 전체적으로 사용자들은 게임의 68%에서만 상대방의 정체성을 정확히 맞췄다. 사용자가 AI 봇과 대결한 게임의 하위 집단에서는 사용자의 정답률이 60%로 더 낮았다(즉, 우연에 의한 추측보다 크게 높지 않았다). 이 백서는 이 독특한 실험의 개발, 배포 및 결과를 상세히 설명한다. 이 실험은 많은 확장과 개선을 요구하지만, 이러한 발견들은 이미 인간과 AI가 혼재할 불가피한 가까운 미래에 대한 통찰을 제공하기 시작한다.
English
We present "Human or Not?", an online game inspired by the Turing test, that measures the capability of AI chatbots to mimic humans in dialog, and of humans to tell bots from other humans. Over the course of a month, the game was played by over 1.5 million users who engaged in anonymous two-minute chat sessions with either another human or an AI language model which was prompted to behave like humans. The task of the players was to correctly guess whether they spoke to a person or to an AI. This largest scale Turing-style test conducted to date revealed some interesting facts. For example, overall users guessed the identity of their partners correctly in only 68% of the games. In the subset of the games in which users faced an AI bot, users had even lower correct guess rates of 60% (that is, not much higher than chance). This white paper details the development, deployment, and results of this unique experiment. While this experiment calls for many extensions and refinements, these findings already begin to shed light on the inevitable near future which will commingle humans and AI.
PDF10December 15, 2024