ChatPaper.aiChatPaper

LLMs erreichen eine Leistung auf Erwachsenenniveau bei Aufgaben zur Theorie des Geistes höherer Ordnung.

LLMs achieve adult human performance on higher-order theory of mind tasks

May 29, 2024
Autoren: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar
cs.AI

Zusammenfassung

Dieses Paper untersucht, inwieweit große Sprachmodelle (LLMs) eine Theorie des höheren Ordnung des Geistes (ToM) entwickelt haben; die menschliche Fähigkeit, über mehrere mentale und emotionale Zustände auf rekursive Weise zu reflektieren (z.B. Ich denke, dass du glaubst, dass sie weiß). Dieses Paper baut auf früheren Arbeiten auf, indem es einen handgeschriebenen Testkatalog -- Multi-Order Theory of Mind Q&A -- einführt und ihn verwendet, um die Leistung von fünf LLMs mit einem neu erhobenen Benchmark von erwachsenen Menschen zu vergleichen. Wir stellen fest, dass GPT-4 und Flan-PaLM insgesamt eine Leistung auf dem Niveau von Erwachsenen und nahe am Niveau von Erwachsenen bei ToM-Aufgaben erreichen, und dass GPT-4 die Leistung von Erwachsenen bei Inferenzen der 6. Ordnung übertrifft. Unsere Ergebnisse legen nahe, dass es eine Wechselwirkung zwischen Modellgröße und Feinabstimmung für die Realisierung von ToM-Fähigkeiten gibt und dass die am besten abschneidenden LLMs eine generalisierte Kapazität für ToM entwickelt haben. Angesichts der Rolle, die die Theorie des höheren Ordnung des Geistes bei einer Vielzahl kooperativer und konkurrierender menschlicher Verhaltensweisen spielt, haben diese Erkenntnisse bedeutende Auswirkungen auf LLM-Anwendungen für Endbenutzer.
English
This paper examines the extent to which large language models (LLMs) have developed higher-order theory of mind (ToM); the human ability to reason about multiple mental and emotional states in a recursive manner (e.g. I think that you believe that she knows). This paper builds on prior work by introducing a handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to compare the performance of five LLMs to a newly gathered adult human benchmark. We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level performance on ToM tasks overall, and that GPT-4 exceeds adult performance on 6th order inferences. Our results suggest that there is an interplay between model size and finetuning for the realisation of ToM abilities, and that the best-performing LLMs have developed a generalised capacity for ToM. Given the role that higher-order ToM plays in a wide range of cooperative and competitive human behaviours, these findings have significant implications for user-facing LLM applications.

Summary

AI-Generated Summary

PDF187December 12, 2024