Slaagt GPT-4 voor de Turingtest?
Does GPT-4 Pass the Turing Test?
October 31, 2023
Auteurs: Cameron Jones, Benjamin Bergen
cs.AI
Samenvatting
We evalueerden GPT-4 in een openbare online Turing Test. De best presterende GPT-4-prompt slaagde in 41% van de spellen, wat beter was dan de referentiewaarden van ELIZA (27%) en GPT-3.5 (14%), maar niet op het niveau van toeval en de referentiewaarde van menselijke deelnemers (63%). De beslissingen van de deelnemers waren voornamelijk gebaseerd op linguïstische stijl (35%) en sociaal-emotionele kenmerken (27%), wat het idee ondersteunt dat intelligentie niet voldoende is om de Turing Test te doorstaan. De demografie van de deelnemers, inclusief opleiding en bekendheid met LLM's, voorspelde de detectiesnelheid niet, wat suggereert dat zelfs degenen die systemen diep begrijpen en er vaak mee interageren, vatbaar kunnen zijn voor misleiding. Ondanks de bekende beperkingen als test voor intelligentie, stellen we dat de Turing Test relevant blijft als beoordeling van naturalistische communicatie en misleiding. AI-modellen met het vermogen om zich als mensen voor te doen, kunnen wijdverspreide maatschappelijke gevolgen hebben, en we analyseren de effectiviteit van verschillende strategieën en criteria voor het beoordelen van menselijkheid.
English
We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4
prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and
GPT-3.5 (14%), but falling short of chance and the baseline set by human
participants (63%). Participants' decisions were based mainly on linguistic
style (35%) and socio-emotional traits (27%), supporting the idea that
intelligence is not sufficient to pass the Turing Test. Participants'
demographics, including education and familiarity with LLMs, did not predict
detection rate, suggesting that even those who understand systems deeply and
interact with them frequently may be susceptible to deception. Despite known
limitations as a test of intelligence, we argue that the Turing Test continues
to be relevant as an assessment of naturalistic communication and deception. AI
models with the ability to masquerade as humans could have widespread societal
consequences, and we analyse the effectiveness of different strategies and
criteria for judging humanlikeness.