ChatPaper.aiChatPaper

Bewertung der Bewertungen von Spielen durch Sprachmodelle

Evaluating Language Models' Evaluations of Games

October 13, 2025
papers.authors: Katherine M. Collins, Cedegao E. Zhang, Graham Todd, Lance Ying, Mauricio Barba da Costa, Ryan Liu, Prafull Sharma, Adrian Weller, Ionatan Kuperwajs, Lionel Wong, Joshua B. Tenenbaum, Thomas L. Griffiths
cs.AI

papers.abstract

Das Denken beschränkt sich nicht nur auf das Lösen von Problemen – es geht auch darum, zu bewerten, welche Probleme es überhaupt wert sind, gelöst zu werden. Die Bewertung von Systemen der künstlichen Intelligenz (KI) konzentrierte sich historisch vor allem auf das Problemlösen, indem untersucht wurde, wie Modelle Spiele wie Schach und Go spielen. In diesem Artikel plädieren wir für ein neues Paradigma, das die Bewertung von Spielen durch KI-Systeme untersucht. Zunächst führen wir einen Formalismus zur Bewertung solcher Bewertungen ein. Anschließend nutzen wir einen umfangreichen Datensatz von über 100 neuartigen Brettspielen und mehr als 450 menschlichen Urteilen, um die Bewertungen moderner Sprach- und Denkmodelle mit denen von Menschen und symbolischen Rechenagenten zu vergleichen. Wir betrachten zwei Arten von bewertenden Anfragen: die Bewertung des Nutzens (oder der Fairness) und des Spaßfaktors von Spielen. Diese Anfragen umfassen zwei Dimensionen, die für die Gestaltung von Bewertungen von KI-Bewertungen relevant sind: wie komplex eine Anfrage zu berechnen ist und wie schwierig es ist, eine Anfrage zu quantifizieren. Unsere Ergebnisse zeigen, dass Denkmodelle in ihrer Bewertung von Spielen im Allgemeinen stärker mit den Urteilen von Menschen übereinstimmen als nicht-denkende Sprachmodelle. Allerdings beobachten wir eine nicht-monotone Beziehung: Je näher die Modelle an das spieltheoretische Optimum heranreichen, desto schwächer wird ihre Übereinstimmung mit den menschlichen Daten. Wir beobachten auch eine stärkere „Unebenheit“ zwischen den Modellen bei der Bewertung des Spaßfaktors, was mit der größeren Schwierigkeit bei der Quantifizierung dieser Anfrage übereinstimmt. Über alle Anfragen und Spiele hinweg zeigen Denkmodelle eine stark variierende und unvorhersehbare Ressourcennutzung bei der Bewertung von Anfragen, was die Bedeutung einer stärker ressourcenrationalen Meta-Bewertung in Sprach- und Denkmodellen unterstreicht.
English
Reasoning is not just about solving problems -- it is also about evaluating which problems are worth solving at all. Evaluations of artificial intelligence (AI) systems primarily focused on problem solving, historically by studying how models play games such as chess and Go. In this paper, we advocate for a new paradigm that assesses AI systems' evaluation of games. First, we introduce a formalism for evaluating such evaluations. We then leverage a large-scale dataset of over 100 novel board games and over 450 human judgments to compare evaluations produced by modern language and reasoning models against those of people and symbolic computational agents. We consider two kinds of evaluative queries: assessing the payoff (or fairness) and the funness of games. These queries span two dimensions relevant to the design of evaluations of AI evaluations: how complex a query is to compute and how difficult a query is to quantify. Our results show that reasoning models are generally more aligned to people in their evaluations of games than non-reasoning language models. However, we observe a non-monotonic relationship: as models get closer to game-theoretic optimal, their fit to human data weakens. We also observe more "jaggedness" across models for assessing funness, in line with the greater difficulty of quantifying this query. Across queries and games, reasoning models show highly variable and unpredictable resource usage when assessing queries, pointing to the importance of imbuing more resource-rational meta-reasoning in language and reasoning models.
PDF02October 16, 2025