言語モデルのゲーム評価能力の検証
Evaluating Language Models' Evaluations of Games
October 13, 2025
著者: Katherine M. Collins, Cedegao E. Zhang, Graham Todd, Lance Ying, Mauricio Barba da Costa, Ryan Liu, Prafull Sharma, Adrian Weller, Ionatan Kuperwajs, Lionel Wong, Joshua B. Tenenbaum, Thomas L. Griffiths
cs.AI
要旨
推論は単に問題を解決することだけではなく、どの問題が解決する価値があるかを評価することでもある。人工知能(AI)システムの評価は、歴史的にチェスや囲碁などのゲームをプレイするモデルを研究することで、主に問題解決に焦点を当ててきた。本論文では、AIシステムがゲームを評価する能力を評価する新しいパラダイムを提唱する。まず、そのような評価を評価するための形式体系を紹介する。次に、100以上の新しいボードゲームと450以上の人間の判断からなる大規模なデータセットを活用し、現代の言語モデルや推論モデルが生成する評価を、人間や記号的な計算エージェントの評価と比較する。我々は、ゲームの報酬(または公平性)と楽しさを評価するという2種類の評価クエリを考察する。これらのクエリは、AI評価の設計に関連する2つの次元、すなわちクエリの計算の複雑さとクエリの定量化の難しさにまたがる。結果として、推論モデルは非推論型の言語モデルよりも、ゲームの評価において人間との整合性が高いことが示された。しかし、モデルがゲーム理論的に最適に近づくにつれて、人間のデータとの適合性が弱まるという非単調な関係が観察された。また、楽しさの評価においては、このクエリの定量化の難しさに応じて、モデル間でより「ギザギザした」結果が観察された。クエリとゲーム全体を通じて、推論モデルはクエリを評価する際に非常に変動的で予測不可能なリソース使用を示し、言語モデルや推論モデルにリソース合理的なメタ推論を組み込むことの重要性が指摘された。
English
Reasoning is not just about solving problems -- it is also about evaluating
which problems are worth solving at all. Evaluations of artificial intelligence
(AI) systems primarily focused on problem solving, historically by studying how
models play games such as chess and Go. In this paper, we advocate for a new
paradigm that assesses AI systems' evaluation of games. First, we introduce a
formalism for evaluating such evaluations. We then leverage a large-scale
dataset of over 100 novel board games and over 450 human judgments to compare
evaluations produced by modern language and reasoning models against those of
people and symbolic computational agents. We consider two kinds of evaluative
queries: assessing the payoff (or fairness) and the funness of games. These
queries span two dimensions relevant to the design of evaluations of AI
evaluations: how complex a query is to compute and how difficult a query is to
quantify. Our results show that reasoning models are generally more aligned to
people in their evaluations of games than non-reasoning language models.
However, we observe a non-monotonic relationship: as models get closer to
game-theoretic optimal, their fit to human data weakens. We also observe more
"jaggedness" across models for assessing funness, in line with the greater
difficulty of quantifying this query. Across queries and games, reasoning
models show highly variable and unpredictable resource usage when assessing
queries, pointing to the importance of imbuing more resource-rational
meta-reasoning in language and reasoning models.