Besteht GPT-4 den Turing-Test?

papers.abstract

Wir evaluierten GPT-4 in einem öffentlichen Online-Turing-Test. Die beste GPT-4-Prompt-Variante bestand in 41 % der Spiele, übertraf damit die Baselines von ELIZA (27 %) und GPT-3.5 (14 %), blieb jedoch hinter dem Zufallswert und der Baseline menschlicher Teilnehmer (63 %) zurück. Die Entscheidungen der Teilnehmer basierten hauptsächlich auf sprachlichem Stil (35 %) und sozio-emotionalen Merkmalen (27 %), was die Annahme stützt, dass Intelligenz allein nicht ausreicht, um den Turing-Test zu bestehen. Die Demografie der Teilnehmer, einschließlich Bildung und Vertrautheit mit großen Sprachmodellen (LLMs), sagte die Erkennungsrate nicht voraus, was darauf hindeutet, dass selbst Personen, die Systeme tiefgehend verstehen und häufig mit ihnen interagieren, anfällig für Täuschung sein können. Trotz bekannter Einschränkungen als Intelligenztest argumentieren wir, dass der Turing-Test weiterhin als Bewertung natürlicher Kommunikation und Täuschung relevant bleibt. KI-Modelle, die in der Lage sind, sich als Menschen auszugeben, könnten weitreichende gesellschaftliche Konsequenzen haben, und wir analysieren die Wirksamkeit verschiedener Strategien und Kriterien zur Beurteilung von Menschlichkeit.

English

We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4 prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and GPT-3.5 (14%), but falling short of chance and the baseline set by human participants (63%). Participants' decisions were based mainly on linguistic style (35%) and socio-emotional traits (27%), supporting the idea that intelligence is not sufficient to pass the Turing Test. Participants' demographics, including education and familiarity with LLMs, did not predict detection rate, suggesting that even those who understand systems deeply and interact with them frequently may be susceptible to deception. Despite known limitations as a test of intelligence, we argue that the Turing Test continues to be relevant as an assessment of naturalistic communication and deception. AI models with the ability to masquerade as humans could have widespread societal consequences, and we analyse the effectiveness of different strategies and criteria for judging humanlikeness.

Besteht GPT-4 den Turing-Test?

Does GPT-4 Pass the Turing Test?

papers.abstract

Support