Valutazione delle Valutazioni dei Modelli Linguistici sui Giochi
Evaluating Language Models' Evaluations of Games
October 13, 2025
Autori: Katherine M. Collins, Cedegao E. Zhang, Graham Todd, Lance Ying, Mauricio Barba da Costa, Ryan Liu, Prafull Sharma, Adrian Weller, Ionatan Kuperwajs, Lionel Wong, Joshua B. Tenenbaum, Thomas L. Griffiths
cs.AI
Abstract
Il ragionamento non riguarda solo la risoluzione di problemi, ma anche la valutazione di quali problemi valga la pena risolvere. Le valutazioni dei sistemi di intelligenza artificiale (IA) si sono tradizionalmente concentrate sulla risoluzione di problemi, storicamente studiando come i modelli giocano a giochi come gli scacchi e il Go. In questo articolo, sosteniamo un nuovo paradigma che valuta la capacità dei sistemi di IA di valutare i giochi stessi. In primo luogo, introduciamo un formalismo per valutare tali valutazioni. Successivamente, utilizziamo un ampio dataset di oltre 100 nuovi giochi da tavolo e più di 450 giudizi umani per confrontare le valutazioni prodotte da moderni modelli di linguaggio e ragionamento con quelle delle persone e di agenti computazionali simbolici. Consideriamo due tipi di query valutative: la valutazione del payoff (o equità) e del divertimento dei giochi. Queste query coprono due dimensioni rilevanti per la progettazione di valutazioni delle IA: quanto è complesso calcolare una query e quanto è difficile quantificarla. I nostri risultati mostrano che i modelli di ragionamento sono generalmente più allineati alle persone nelle loro valutazioni dei giochi rispetto ai modelli di linguaggio non basati sul ragionamento. Tuttavia, osserviamo una relazione non monotona: man mano che i modelli si avvicinano all'ottimalità teorica dei giochi, la loro corrispondenza con i dati umani si indebolisce. Osserviamo anche una maggiore "irregolarità" tra i modelli nella valutazione del divertimento, in linea con la maggiore difficoltà di quantificare questa query. Attraverso query e giochi, i modelli di ragionamento mostrano un utilizzo delle risorse altamente variabile e imprevedibile durante la valutazione delle query, evidenziando l'importanza di integrare un meta-ragionamento più razionale in termini di risorse nei modelli di linguaggio e ragionamento.
English
Reasoning is not just about solving problems -- it is also about evaluating
which problems are worth solving at all. Evaluations of artificial intelligence
(AI) systems primarily focused on problem solving, historically by studying how
models play games such as chess and Go. In this paper, we advocate for a new
paradigm that assesses AI systems' evaluation of games. First, we introduce a
formalism for evaluating such evaluations. We then leverage a large-scale
dataset of over 100 novel board games and over 450 human judgments to compare
evaluations produced by modern language and reasoning models against those of
people and symbolic computational agents. We consider two kinds of evaluative
queries: assessing the payoff (or fairness) and the funness of games. These
queries span two dimensions relevant to the design of evaluations of AI
evaluations: how complex a query is to compute and how difficult a query is to
quantify. Our results show that reasoning models are generally more aligned to
people in their evaluations of games than non-reasoning language models.
However, we observe a non-monotonic relationship: as models get closer to
game-theoretic optimal, their fit to human data weakens. We also observe more
"jaggedness" across models for assessing funness, in line with the greater
difficulty of quantifying this query. Across queries and games, reasoning
models show highly variable and unpredictable resource usage when assessing
queries, pointing to the importance of imbuing more resource-rational
meta-reasoning in language and reasoning models.