ChatPaper.aiChatPaper

LLM достигают уровня производительности взрослого человека на задачах более высокого порядка теории ума.

LLMs achieve adult human performance on higher-order theory of mind tasks

May 29, 2024
Авторы: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar
cs.AI

Аннотация

Данная статья исследует в какой степени большие языковые модели (LLM) развили теорию ума более высокого порядка (ToM); способность человека рассуждать о различных умственных и эмоциональных состояниях рекурсивным образом (например, Я думаю, что ты считаешь, что она знает). В работе используется рукописный набор тестов - Многопорядковый вопросно-ответный тест по теории ума - для сравнения производительности пяти LLM с недавно собранным бенчмарком взрослых людей. Мы обнаружили, что GPT-4 и Flan-PaLM достигают уровня взрослых и почти уровня взрослых в общей производительности на задачах ToM, и что GPT-4 превосходит производительность взрослых на выводах 6-го порядка. Наши результаты подтверждают, что существует взаимодействие между размером модели и донастройкой для реализации способностей ToM, и что лучшие LLM развили обобщенную способность к ToM. Учитывая роль, которую играет теория ума более высокого порядка в широком спектре кооперативного и конкурентного человеческого поведения, эти результаты имеют значительные последствия для прикладных приложений LLM, предназначенных для пользователей.
English
This paper examines the extent to which large language models (LLMs) have developed higher-order theory of mind (ToM); the human ability to reason about multiple mental and emotional states in a recursive manner (e.g. I think that you believe that she knows). This paper builds on prior work by introducing a handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to compare the performance of five LLMs to a newly gathered adult human benchmark. We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level performance on ToM tasks overall, and that GPT-4 exceeds adult performance on 6th order inferences. Our results suggest that there is an interplay between model size and finetuning for the realisation of ToM abilities, and that the best-performing LLMs have developed a generalised capacity for ToM. Given the role that higher-order ToM plays in a wide range of cooperative and competitive human behaviours, these findings have significant implications for user-facing LLM applications.

Summary

AI-Generated Summary

PDF187December 12, 2024