LLMs alcançam desempenho equivalente ao de adultos humanos em tarefas de teoria da mente de ordem superior.

Resumo

Este artigo examina até que ponto os grandes modelos de linguagem (LLMs) desenvolveram uma teoria da mente (ToM) de ordem superior; a capacidade humana de raciocinar sobre múltiplos estados mentais e emocionais de forma recursiva (por exemplo, eu acho que você acredita que ela sabe). Este artigo se baseia em trabalhos anteriores ao introduzir um conjunto de testes manuscritos -- Multi-Order Theory of Mind Q&A -- e utilizá-lo para comparar o desempenho de cinco LLMs com um novo benchmark coletado de adultos humanos. Descobrimos que o GPT-4 e o Flan-PaLM atingem desempenho em nível adulto e próximo ao adulto em tarefas de ToM no geral, e que o GPT-4 supera o desempenho adulto em inferências de 6ª ordem. Nossos resultados sugerem que há uma interação entre o tamanho do modelo e o ajuste fino para a realização de habilidades de ToM, e que os LLMs de melhor desempenho desenvolveram uma capacidade generalizada para ToM. Dado o papel que a ToM de ordem superior desempenha em uma ampla gama de comportamentos humanos cooperativos e competitivos, essas descobertas têm implicações significativas para aplicações de LLMs voltadas para o usuário.

English

This paper examines the extent to which large language models (LLMs) have developed higher-order theory of mind (ToM); the human ability to reason about multiple mental and emotional states in a recursive manner (e.g. I think that you believe that she knows). This paper builds on prior work by introducing a handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to compare the performance of five LLMs to a newly gathered adult human benchmark. We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level performance on ToM tasks overall, and that GPT-4 exceeds adult performance on 6th order inferences. Our results suggest that there is an interplay between model size and finetuning for the realisation of ToM abilities, and that the best-performing LLMs have developed a generalised capacity for ToM. Given the role that higher-order ToM plays in a wide range of cooperative and competitive human behaviours, these findings have significant implications for user-facing LLM applications.

LLMs alcançam desempenho equivalente ao de adultos humanos em tarefas de teoria da mente de ordem superior.

LLMs achieve adult human performance on higher-order theory of mind tasks

Resumo

Support