GPT-4 réussit-il le test de Turing ?
Does GPT-4 Pass the Turing Test?
October 31, 2023
Auteurs: Cameron Jones, Benjamin Bergen
cs.AI
Résumé
Nous avons évalué GPT-4 dans un test de Turing public en ligne. L’invocation de GPT-4 la plus performante a réussi dans 41 % des cas, surpassant les références établies par ELIZA (27 %) et GPT-3.5 (14 %), mais restant en deçà du hasard et de la référence fixée par les participants humains (63 %). Les décisions des participants se sont principalement basées sur le style linguistique (35 %) et les traits socio-émotionnels (27 %), soutenant l’idée que l’intelligence seule ne suffit pas pour réussir le test de Turing. Les caractéristiques démographiques des participants, telles que leur niveau d’éducation et leur familiarité avec les modèles de langage, n’ont pas permis de prédire le taux de détection, suggérant que même ceux qui comprennent ces systèmes en profondeur et interagissent fréquemment avec eux peuvent être sensibles à la tromperie. Malgré ses limites connues en tant que test d’intelligence, nous soutenons que le test de Turing reste pertinent comme évaluation de la communication naturaliste et de la tromperie. Les modèles d’IA capables de se faire passer pour des humains pourraient avoir des conséquences sociétales étendues, et nous analysons l’efficacité de différentes stratégies et critères pour juger de la ressemblance humaine.
English
We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4
prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and
GPT-3.5 (14%), but falling short of chance and the baseline set by human
participants (63%). Participants' decisions were based mainly on linguistic
style (35%) and socio-emotional traits (27%), supporting the idea that
intelligence is not sufficient to pass the Turing Test. Participants'
demographics, including education and familiarity with LLMs, did not predict
detection rate, suggesting that even those who understand systems deeply and
interact with them frequently may be susceptible to deception. Despite known
limitations as a test of intelligence, we argue that the Turing Test continues
to be relevant as an assessment of naturalistic communication and deception. AI
models with the ability to masquerade as humans could have widespread societal
consequences, and we analyse the effectiveness of different strategies and
criteria for judging humanlikeness.