ChatPaper.aiChatPaper

Évaluation des évaluations des modèles de langage sur les jeux

Evaluating Language Models' Evaluations of Games

October 13, 2025
papers.authors: Katherine M. Collins, Cedegao E. Zhang, Graham Todd, Lance Ying, Mauricio Barba da Costa, Ryan Liu, Prafull Sharma, Adrian Weller, Ionatan Kuperwajs, Lionel Wong, Joshua B. Tenenbaum, Thomas L. Griffiths
cs.AI

papers.abstract

Le raisonnement ne se limite pas à la résolution de problèmes — il consiste également à évaluer quels problèmes méritent d'être résolus. Les évaluations des systèmes d'intelligence artificielle (IA) se sont historiquement concentrées sur la résolution de problèmes, notamment en étudiant comment les modèles jouent à des jeux tels que les échecs et le Go. Dans cet article, nous plaidons pour un nouveau paradigme qui évalue la manière dont les systèmes d'IA évaluent les jeux. Tout d'abord, nous introduisons un formalisme pour évaluer de telles évaluations. Nous exploitons ensuite un ensemble de données à grande échelle comprenant plus de 100 nouveaux jeux de société et plus de 450 jugements humains pour comparer les évaluations produites par des modèles modernes de langage et de raisonnement à celles des humains et des agents computationnels symboliques. Nous considérons deux types de requêtes évaluatives : l'évaluation du gain (ou de l'équité) et du caractère amusant des jeux. Ces requêtes couvrent deux dimensions pertinentes pour la conception des évaluations des IA : la complexité de calcul d'une requête et la difficulté de quantification d'une requête. Nos résultats montrent que les modèles de raisonnement sont généralement plus alignés sur les jugements humains dans leurs évaluations des jeux que les modèles de langage non raisonnants. Cependant, nous observons une relation non monotone : plus les modèles se rapprochent de l'optimalité théorique des jeux, moins leurs évaluations correspondent aux données humaines. Nous observons également une plus grande "irrégularité" entre les modèles pour l'évaluation du caractère amusant, en accord avec la plus grande difficulté de quantification de cette requête. Pour toutes les requêtes et tous les jeux, les modèles de raisonnement montrent une utilisation des ressources très variable et imprévisible lors de l'évaluation des requêtes, soulignant l'importance d'intégrer une méta-raison plus rationnelle en termes de ressources dans les modèles de langage et de raisonnement.
English
Reasoning is not just about solving problems -- it is also about evaluating which problems are worth solving at all. Evaluations of artificial intelligence (AI) systems primarily focused on problem solving, historically by studying how models play games such as chess and Go. In this paper, we advocate for a new paradigm that assesses AI systems' evaluation of games. First, we introduce a formalism for evaluating such evaluations. We then leverage a large-scale dataset of over 100 novel board games and over 450 human judgments to compare evaluations produced by modern language and reasoning models against those of people and symbolic computational agents. We consider two kinds of evaluative queries: assessing the payoff (or fairness) and the funness of games. These queries span two dimensions relevant to the design of evaluations of AI evaluations: how complex a query is to compute and how difficult a query is to quantify. Our results show that reasoning models are generally more aligned to people in their evaluations of games than non-reasoning language models. However, we observe a non-monotonic relationship: as models get closer to game-theoretic optimal, their fit to human data weakens. We also observe more "jaggedness" across models for assessing funness, in line with the greater difficulty of quantifying this query. Across queries and games, reasoning models show highly variable and unpredictable resource usage when assessing queries, pointing to the importance of imbuing more resource-rational meta-reasoning in language and reasoning models.
PDF02October 16, 2025