¿Pasa GPT-4 la Prueba de Turing?
Does GPT-4 Pass the Turing Test?
October 31, 2023
Autores: Cameron Jones, Benjamin Bergen
cs.AI
Resumen
Evaluamos GPT-4 en una prueba de Turing pública en línea. El mejor indicador de GPT-4 superó el 41% de los juegos, superando los puntos de referencia establecidos por ELIZA (27%) y GPT-3.5 (14%), pero quedando por debajo del azar y del punto de referencia establecido por los participantes humanos (63%). Las decisiones de los participantes se basaron principalmente en el estilo lingüístico (35%) y los rasgos socioemocionales (27%), respaldando la idea de que la inteligencia no es suficiente para superar la prueba de Turing. La demografía de los participantes, incluyendo su educación y familiaridad con los modelos de lenguaje grandes (LLM), no predijo la tasa de detección, lo que sugiere que incluso aquellos que comprenden profundamente estos sistemas e interactúan con ellos con frecuencia pueden ser susceptibles al engaño. A pesar de las limitaciones conocidas como prueba de inteligencia, argumentamos que la prueba de Turing sigue siendo relevante como una evaluación de la comunicación naturalista y el engaño. Los modelos de IA con la capacidad de hacerse pasar por humanos podrían tener consecuencias sociales generalizadas, y analizamos la efectividad de diferentes estrategias y criterios para juzgar la similitud humana.
English
We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4
prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and
GPT-3.5 (14%), but falling short of chance and the baseline set by human
participants (63%). Participants' decisions were based mainly on linguistic
style (35%) and socio-emotional traits (27%), supporting the idea that
intelligence is not sufficient to pass the Turing Test. Participants'
demographics, including education and familiarity with LLMs, did not predict
detection rate, suggesting that even those who understand systems deeply and
interact with them frequently may be susceptible to deception. Despite known
limitations as a test of intelligence, we argue that the Turing Test continues
to be relevant as an assessment of naturalistic communication and deception. AI
models with the ability to masquerade as humans could have widespread societal
consequences, and we analyse the effectiveness of different strategies and
criteria for judging humanlikeness.