ChatPaper.aiChatPaper

LLMs alcançam desempenho equivalente ao de adultos humanos em tarefas de teoria da mente de ordem superior.

LLMs achieve adult human performance on higher-order theory of mind tasks

May 29, 2024
Autores: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar
cs.AI

Resumo

Este artigo examina até que ponto os grandes modelos de linguagem (LLMs) desenvolveram uma teoria da mente (ToM) de ordem superior; a capacidade humana de raciocinar sobre múltiplos estados mentais e emocionais de forma recursiva (por exemplo, eu acho que você acredita que ela sabe). Este artigo se baseia em trabalhos anteriores ao introduzir um conjunto de testes manuscritos -- Multi-Order Theory of Mind Q&A -- e utilizá-lo para comparar o desempenho de cinco LLMs com um novo benchmark coletado de adultos humanos. Descobrimos que o GPT-4 e o Flan-PaLM atingem desempenho em nível adulto e próximo ao adulto em tarefas de ToM no geral, e que o GPT-4 supera o desempenho adulto em inferências de 6ª ordem. Nossos resultados sugerem que há uma interação entre o tamanho do modelo e o ajuste fino para a realização de habilidades de ToM, e que os LLMs de melhor desempenho desenvolveram uma capacidade generalizada para ToM. Dado o papel que a ToM de ordem superior desempenha em uma ampla gama de comportamentos humanos cooperativos e competitivos, essas descobertas têm implicações significativas para aplicações de LLMs voltadas para o usuário.
English
This paper examines the extent to which large language models (LLMs) have developed higher-order theory of mind (ToM); the human ability to reason about multiple mental and emotional states in a recursive manner (e.g. I think that you believe that she knows). This paper builds on prior work by introducing a handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to compare the performance of five LLMs to a newly gathered adult human benchmark. We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level performance on ToM tasks overall, and that GPT-4 exceeds adult performance on 6th order inferences. Our results suggest that there is an interplay between model size and finetuning for the realisation of ToM abilities, and that the best-performing LLMs have developed a generalised capacity for ToM. Given the role that higher-order ToM plays in a wide range of cooperative and competitive human behaviours, these findings have significant implications for user-facing LLM applications.
PDF177December 12, 2024