GPT-4はチューリングテストに合格するか?
Does GPT-4 Pass the Turing Test?
October 31, 2023
著者: Cameron Jones, Benjamin Bergen
cs.AI
要旨
我々は、公開オンラインのチューリングテストにおいてGPT-4を評価した。最も性能の高かったGPT-4のプロンプトは、41%のゲームで通過し、ELIZA(27%)およびGPT-3.5(14%)のベースラインを上回ったが、偶然の確率や人間の参加者が設定したベースライン(63%)には及ばなかった。参加者の判断は主に言語スタイル(35%)と社会感情的特性(27%)に基づいており、知性がチューリングテストを通過するための十分条件ではないという考えを支持するものであった。参加者の人口統計学的要因(教育水準や大規模言語モデルへの親密度など)は検出率を予測しなかったことから、システムを深く理解し頻繁に相互作用する人々でさえも欺きに陥り得ることが示唆された。知性のテストとしての限界が知られているにもかかわらず、我々はチューリングテストが自然なコミュニケーションと欺瞞の評価として依然として関連性を保っていると主張する。人間のように振る舞う能力を持つAIモデルは、広範な社会的影響をもたらす可能性があり、我々は人間らしさを判断するための様々な戦略と基準の有効性を分析した。
English
We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4
prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and
GPT-3.5 (14%), but falling short of chance and the baseline set by human
participants (63%). Participants' decisions were based mainly on linguistic
style (35%) and socio-emotional traits (27%), supporting the idea that
intelligence is not sufficient to pass the Turing Test. Participants'
demographics, including education and familiarity with LLMs, did not predict
detection rate, suggesting that even those who understand systems deeply and
interact with them frequently may be susceptible to deception. Despite known
limitations as a test of intelligence, we argue that the Turing Test continues
to be relevant as an assessment of naturalistic communication and deception. AI
models with the ability to masquerade as humans could have widespread societal
consequences, and we analyse the effectiveness of different strategies and
criteria for judging humanlikeness.