O GPT-4 passa no Teste de Turing?
Does GPT-4 Pass the Turing Test?
October 31, 2023
Autores: Cameron Jones, Benjamin Bergen
cs.AI
Resumo
Avaliamos o GPT-4 em um Teste de Turing público online. O prompt do GPT-4 com melhor desempenho passou em 41% dos jogos, superando as linhas de base estabelecidas por ELIZA (27%) e GPT-3.5 (14%), mas ficando aquém do acaso e da linha de base estabelecida por participantes humanos (63%). As decisões dos participantes foram baseadas principalmente no estilo linguístico (35%) e em traços socioemocionais (27%), apoiando a ideia de que a inteligência não é suficiente para passar no Teste de Turing. As características demográficas dos participantes, incluindo educação e familiaridade com LLMs, não previram a taxa de detecção, sugerindo que mesmo aqueles que entendem profundamente os sistemas e interagem com eles frequentemente podem ser suscetíveis à decepção. Apesar das limitações conhecidas como teste de inteligência, argumentamos que o Teste de Turing continua relevante como uma avaliação da comunicação naturalística e da decepção. Modelos de IA com a capacidade de se disfarçar como humanos poderiam ter consequências sociais generalizadas, e analisamos a eficácia de diferentes estratégias e critérios para julgar a semelhança humana.
English
We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4
prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and
GPT-3.5 (14%), but falling short of chance and the baseline set by human
participants (63%). Participants' decisions were based mainly on linguistic
style (35%) and socio-emotional traits (27%), supporting the idea that
intelligence is not sufficient to pass the Turing Test. Participants'
demographics, including education and familiarity with LLMs, did not predict
detection rate, suggesting that even those who understand systems deeply and
interact with them frequently may be susceptible to deception. Despite known
limitations as a test of intelligence, we argue that the Turing Test continues
to be relevant as an assessment of naturalistic communication and deception. AI
models with the ability to masquerade as humans could have widespread societal
consequences, and we analyse the effectiveness of different strategies and
criteria for judging humanlikeness.