ChatPaper.aiChatPaper

¿Humano o no? Un enfoque gamificado de la prueba de Turing

Human or Not? A Gamified Approach to the Turing Test

May 31, 2023
Autores: Daniel Jannai, Amos Meron, Barak Lenz, Yoav Levine, Yoav Shoham
cs.AI

Resumen

Presentamos "¿Humano o no?", un juego en línea inspirado en la prueba de Turing, que mide la capacidad de los chatbots de IA para imitar a los humanos en el diálogo, y la habilidad de los humanos para distinguir a los bots de otros humanos. Durante el transcurso de un mes, el juego fue jugado por más de 1.5 millones de usuarios que participaron en sesiones de chat anónimas de dos minutos con otro humano o con un modelo de lenguaje de IA programado para comportarse como humanos. La tarea de los jugadores era adivinar correctamente si estaban hablando con una persona o con una IA. Esta prueba de estilo Turing a mayor escala realizada hasta la fecha reveló algunos hechos interesantes. Por ejemplo, en general, los usuarios adivinaron correctamente la identidad de sus interlocutores en solo el 68% de los juegos. En el subconjunto de juegos en los que los usuarios se enfrentaron a un bot de IA, las tasas de acierto fueron aún más bajas, del 60% (es decir, no mucho más altas que el azar). Este documento detalla el desarrollo, la implementación y los resultados de este experimento único. Si bien este experimento requiere muchas extensiones y refinamientos, estos hallazgos ya comienzan a arrojar luz sobre el inevitable futuro cercano en el que humanos e IA coexistirán.
English
We present "Human or Not?", an online game inspired by the Turing test, that measures the capability of AI chatbots to mimic humans in dialog, and of humans to tell bots from other humans. Over the course of a month, the game was played by over 1.5 million users who engaged in anonymous two-minute chat sessions with either another human or an AI language model which was prompted to behave like humans. The task of the players was to correctly guess whether they spoke to a person or to an AI. This largest scale Turing-style test conducted to date revealed some interesting facts. For example, overall users guessed the identity of their partners correctly in only 68% of the games. In the subset of the games in which users faced an AI bot, users had even lower correct guess rates of 60% (that is, not much higher than chance). This white paper details the development, deployment, and results of this unique experiment. While this experiment calls for many extensions and refinements, these findings already begin to shed light on the inevitable near future which will commingle humans and AI.
PDF10December 15, 2024