Besteht GPT-4 den Turing-Test?
Does GPT-4 Pass the Turing Test?
October 31, 2023
Autoren: Cameron Jones, Benjamin Bergen
cs.AI
Zusammenfassung
Wir evaluierten GPT-4 in einem öffentlichen Online-Turing-Test. Die beste GPT-4-Prompt-Variante bestand in 41 % der Spiele, übertraf damit die Baselines von ELIZA (27 %) und GPT-3.5 (14 %), blieb jedoch hinter dem Zufallswert und der Baseline menschlicher Teilnehmer (63 %) zurück. Die Entscheidungen der Teilnehmer basierten hauptsächlich auf sprachlichem Stil (35 %) und sozio-emotionalen Merkmalen (27 %), was die Annahme stützt, dass Intelligenz allein nicht ausreicht, um den Turing-Test zu bestehen. Die Demografie der Teilnehmer, einschließlich Bildung und Vertrautheit mit großen Sprachmodellen (LLMs), sagte die Erkennungsrate nicht voraus, was darauf hindeutet, dass selbst Personen, die Systeme tiefgehend verstehen und häufig mit ihnen interagieren, anfällig für Täuschung sein können. Trotz bekannter Einschränkungen als Intelligenztest argumentieren wir, dass der Turing-Test weiterhin als Bewertung natürlicher Kommunikation und Täuschung relevant bleibt. KI-Modelle, die in der Lage sind, sich als Menschen auszugeben, könnten weitreichende gesellschaftliche Konsequenzen haben, und wir analysieren die Wirksamkeit verschiedener Strategien und Kriterien zur Beurteilung von Menschlichkeit.
English
We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4
prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and
GPT-3.5 (14%), but falling short of chance and the baseline set by human
participants (63%). Participants' decisions were based mainly on linguistic
style (35%) and socio-emotional traits (27%), supporting the idea that
intelligence is not sufficient to pass the Turing Test. Participants'
demographics, including education and familiarity with LLMs, did not predict
detection rate, suggesting that even those who understand systems deeply and
interact with them frequently may be susceptible to deception. Despite known
limitations as a test of intelligence, we argue that the Turing Test continues
to be relevant as an assessment of naturalistic communication and deception. AI
models with the ability to masquerade as humans could have widespread societal
consequences, and we analyse the effectiveness of different strategies and
criteria for judging humanlikeness.