Bewertung der Bewertungen von Spielen durch Sprachmodelle
Evaluating Language Models' Evaluations of Games
October 13, 2025
papers.authors: Katherine M. Collins, Cedegao E. Zhang, Graham Todd, Lance Ying, Mauricio Barba da Costa, Ryan Liu, Prafull Sharma, Adrian Weller, Ionatan Kuperwajs, Lionel Wong, Joshua B. Tenenbaum, Thomas L. Griffiths
cs.AI
papers.abstract
Das Denken beschränkt sich nicht nur auf das Lösen von Problemen – es geht auch darum, zu bewerten, welche Probleme es überhaupt wert sind, gelöst zu werden. Die Bewertung von Systemen der künstlichen Intelligenz (KI) konzentrierte sich historisch vor allem auf das Problemlösen, indem untersucht wurde, wie Modelle Spiele wie Schach und Go spielen. In diesem Artikel plädieren wir für ein neues Paradigma, das die Bewertung von Spielen durch KI-Systeme untersucht. Zunächst führen wir einen Formalismus zur Bewertung solcher Bewertungen ein. Anschließend nutzen wir einen umfangreichen Datensatz von über 100 neuartigen Brettspielen und mehr als 450 menschlichen Urteilen, um die Bewertungen moderner Sprach- und Denkmodelle mit denen von Menschen und symbolischen Rechenagenten zu vergleichen. Wir betrachten zwei Arten von bewertenden Anfragen: die Bewertung des Nutzens (oder der Fairness) und des Spaßfaktors von Spielen. Diese Anfragen umfassen zwei Dimensionen, die für die Gestaltung von Bewertungen von KI-Bewertungen relevant sind: wie komplex eine Anfrage zu berechnen ist und wie schwierig es ist, eine Anfrage zu quantifizieren. Unsere Ergebnisse zeigen, dass Denkmodelle in ihrer Bewertung von Spielen im Allgemeinen stärker mit den Urteilen von Menschen übereinstimmen als nicht-denkende Sprachmodelle. Allerdings beobachten wir eine nicht-monotone Beziehung: Je näher die Modelle an das spieltheoretische Optimum heranreichen, desto schwächer wird ihre Übereinstimmung mit den menschlichen Daten. Wir beobachten auch eine stärkere „Unebenheit“ zwischen den Modellen bei der Bewertung des Spaßfaktors, was mit der größeren Schwierigkeit bei der Quantifizierung dieser Anfrage übereinstimmt. Über alle Anfragen und Spiele hinweg zeigen Denkmodelle eine stark variierende und unvorhersehbare Ressourcennutzung bei der Bewertung von Anfragen, was die Bedeutung einer stärker ressourcenrationalen Meta-Bewertung in Sprach- und Denkmodellen unterstreicht.
English
Reasoning is not just about solving problems -- it is also about evaluating
which problems are worth solving at all. Evaluations of artificial intelligence
(AI) systems primarily focused on problem solving, historically by studying how
models play games such as chess and Go. In this paper, we advocate for a new
paradigm that assesses AI systems' evaluation of games. First, we introduce a
formalism for evaluating such evaluations. We then leverage a large-scale
dataset of over 100 novel board games and over 450 human judgments to compare
evaluations produced by modern language and reasoning models against those of
people and symbolic computational agents. We consider two kinds of evaluative
queries: assessing the payoff (or fairness) and the funness of games. These
queries span two dimensions relevant to the design of evaluations of AI
evaluations: how complex a query is to compute and how difficult a query is to
quantify. Our results show that reasoning models are generally more aligned to
people in their evaluations of games than non-reasoning language models.
However, we observe a non-monotonic relationship: as models get closer to
game-theoretic optimal, their fit to human data weakens. We also observe more
"jaggedness" across models for assessing funness, in line with the greater
difficulty of quantifying this query. Across queries and games, reasoning
models show highly variable and unpredictable resource usage when assessing
queries, pointing to the importance of imbuing more resource-rational
meta-reasoning in language and reasoning models.