Проходит ли GPT-4 тест Тьюринга?
Does GPT-4 Pass the Turing Test?
October 31, 2023
Авторы: Cameron Jones, Benjamin Bergen
cs.AI
Аннотация
Мы провели оценку GPT-4 в публичном онлайн-тесте Тьюринга. Лучший вариант запроса GPT-4 прошел тест в 41% случаев, превзойдя базовые показатели ELIZA (27%) и GPT-3.5 (14%), но не достигнув уровня случайного угадывания и базового показателя, установленного участниками-людьми (63%). Решения участников основывались преимущественно на лингвистическом стиле (35%) и социально-эмоциональных характеристиках (27%), что подтверждает идею о том, что интеллекта недостаточно для прохождения теста Тьюринга. Демографические данные участников, включая уровень образования и знакомство с языковыми моделями, не предсказывали частоту обнаружения, что указывает на то, что даже те, кто глубоко понимает системы и часто взаимодействует с ними, могут быть подвержены обману. Несмотря на известные ограничения теста Тьюринга как оценки интеллекта, мы утверждаем, что он остается актуальным для оценки естественной коммуникации и способности к обману. ИИ-модели, способные маскироваться под людей, могут иметь широкие социальные последствия, и мы анализируем эффективность различных стратегий и критериев для оценки человекообразности.
English
We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4
prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and
GPT-3.5 (14%), but falling short of chance and the baseline set by human
participants (63%). Participants' decisions were based mainly on linguistic
style (35%) and socio-emotional traits (27%), supporting the idea that
intelligence is not sufficient to pass the Turing Test. Participants'
demographics, including education and familiarity with LLMs, did not predict
detection rate, suggesting that even those who understand systems deeply and
interact with them frequently may be susceptible to deception. Despite known
limitations as a test of intelligence, we argue that the Turing Test continues
to be relevant as an assessment of naturalistic communication and deception. AI
models with the ability to masquerade as humans could have widespread societal
consequences, and we analyse the effectiveness of different strategies and
criteria for judging humanlikeness.