Valutazione delle Valutazioni dei Modelli Linguistici sui Giochi

Abstract

Il ragionamento non riguarda solo la risoluzione di problemi, ma anche la valutazione di quali problemi valga la pena risolvere. Le valutazioni dei sistemi di intelligenza artificiale (IA) si sono tradizionalmente concentrate sulla risoluzione di problemi, storicamente studiando come i modelli giocano a giochi come gli scacchi e il Go. In questo articolo, sosteniamo un nuovo paradigma che valuta la capacità dei sistemi di IA di valutare i giochi stessi. In primo luogo, introduciamo un formalismo per valutare tali valutazioni. Successivamente, utilizziamo un ampio dataset di oltre 100 nuovi giochi da tavolo e più di 450 giudizi umani per confrontare le valutazioni prodotte da moderni modelli di linguaggio e ragionamento con quelle delle persone e di agenti computazionali simbolici. Consideriamo due tipi di query valutative: la valutazione del payoff (o equità) e del divertimento dei giochi. Queste query coprono due dimensioni rilevanti per la progettazione di valutazioni delle IA: quanto è complesso calcolare una query e quanto è difficile quantificarla. I nostri risultati mostrano che i modelli di ragionamento sono generalmente più allineati alle persone nelle loro valutazioni dei giochi rispetto ai modelli di linguaggio non basati sul ragionamento. Tuttavia, osserviamo una relazione non monotona: man mano che i modelli si avvicinano all'ottimalità teorica dei giochi, la loro corrispondenza con i dati umani si indebolisce. Osserviamo anche una maggiore "irregolarità" tra i modelli nella valutazione del divertimento, in linea con la maggiore difficoltà di quantificare questa query. Attraverso query e giochi, i modelli di ragionamento mostrano un utilizzo delle risorse altamente variabile e imprevedibile durante la valutazione delle query, evidenziando l'importanza di integrare un meta-ragionamento più razionale in termini di risorse nei modelli di linguaggio e ragionamento.

English

Reasoning is not just about solving problems -- it is also about evaluating which problems are worth solving at all. Evaluations of artificial intelligence (AI) systems primarily focused on problem solving, historically by studying how models play games such as chess and Go. In this paper, we advocate for a new paradigm that assesses AI systems' evaluation of games. First, we introduce a formalism for evaluating such evaluations. We then leverage a large-scale dataset of over 100 novel board games and over 450 human judgments to compare evaluations produced by modern language and reasoning models against those of people and symbolic computational agents. We consider two kinds of evaluative queries: assessing the payoff (or fairness) and the funness of games. These queries span two dimensions relevant to the design of evaluations of AI evaluations: how complex a query is to compute and how difficult a query is to quantify. Our results show that reasoning models are generally more aligned to people in their evaluations of games than non-reasoning language models. However, we observe a non-monotonic relationship: as models get closer to game-theoretic optimal, their fit to human data weakens. We also observe more "jaggedness" across models for assessing funness, in line with the greater difficulty of quantifying this query. Across queries and games, reasoning models show highly variable and unpredictable resource usage when assessing queries, pointing to the importance of imbuing more resource-rational meta-reasoning in language and reasoning models.

Valutazione delle Valutazioni dei Modelli Linguistici sui Giochi

Evaluating Language Models' Evaluations of Games

Abstract

Support