Человек или нет? Игровой подход к тесту Тьюринга
Human or Not? A Gamified Approach to the Turing Test
May 31, 2023
Авторы: Daniel Jannai, Amos Meron, Barak Lenz, Yoav Levine, Yoav Shoham
cs.AI
Аннотация
Мы представляем игру "Человек или не человек?", вдохновленную тестом Тьюринга, которая оценивает способность чат-ботов с искусственным интеллектом имитировать человека в диалоге, а также способность людей отличать ботов от других людей. В течение месяца в игру сыграли более 1,5 миллиона пользователей, которые участвовали в анонимных двухминутных чат-сессиях либо с другим человеком, либо с языковой моделью ИИ, запрограммированной вести себя как человек. Задача игроков заключалась в том, чтобы правильно угадать, с кем они общались — с человеком или с ИИ. Этот крупнейший на сегодняшний день эксперимент в стиле теста Тьюринга выявил несколько интересных фактов. Например, в целом пользователи правильно угадали личность своего собеседника только в 68% случаев. В тех играх, где пользователи сталкивались с ИИ-ботом, процент правильных ответов был еще ниже — 60% (то есть ненамного выше случайного угадывания). В данном техническом документе подробно описываются разработка, внедрение и результаты этого уникального эксперимента. Хотя этот эксперимент требует множества расширений и уточнений, уже полученные результаты начинают проливать свет на неизбежное ближайшее будущее, в котором люди и ИИ будут тесно взаимодействовать.
English
We present "Human or Not?", an online game inspired by the Turing test, that
measures the capability of AI chatbots to mimic humans in dialog, and of humans
to tell bots from other humans. Over the course of a month, the game was played
by over 1.5 million users who engaged in anonymous two-minute chat sessions
with either another human or an AI language model which was prompted to behave
like humans. The task of the players was to correctly guess whether they spoke
to a person or to an AI. This largest scale Turing-style test conducted to date
revealed some interesting facts. For example, overall users guessed the
identity of their partners correctly in only 68% of the games. In the subset of
the games in which users faced an AI bot, users had even lower correct guess
rates of 60% (that is, not much higher than chance). This white paper details
the development, deployment, and results of this unique experiment. While this
experiment calls for many extensions and refinements, these findings already
begin to shed light on the inevitable near future which will commingle humans
and AI.