ChatPaper.aiChatPaper

게임 평가에 대한 언어 모델의 평가 분석

Evaluating Language Models' Evaluations of Games

October 13, 2025
저자: Katherine M. Collins, Cedegao E. Zhang, Graham Todd, Lance Ying, Mauricio Barba da Costa, Ryan Liu, Prafull Sharma, Adrian Weller, Ionatan Kuperwajs, Lionel Wong, Joshua B. Tenenbaum, Thomas L. Griffiths
cs.AI

초록

추론은 단순히 문제를 해결하는 것에만 국한되지 않으며, 어떤 문제가 해결할 가치가 있는지를 평가하는 것도 포함한다. 역사적으로 인공지능(AI) 시스템의 평가는 주로 문제 해결에 초점을 맞추어 왔으며, 특히 체스나 바둑과 같은 게임을 어떻게 플레이하는지를 연구함으로써 이루어졌다. 본 논문에서는 AI 시스템이 게임을 평가하는 방식을 평가하는 새로운 패러다임을 제안한다. 먼저, 이러한 평가를 위한 형식적 틀을 소개한다. 그런 다음, 100개 이상의 새로운 보드 게임과 450개 이상의 인간 판단으로 구성된 대규모 데이터셋을 활용하여 현대 언어 및 추론 모델이 생성한 평가를 사람과 기호적 계산 에이전트의 평가와 비교한다. 우리는 두 가지 종류의 평가 질문을 고려한다: 게임의 보상(또는 공정성)과 재미를 평가하는 것이다. 이러한 질문은 AI 평가의 설계와 관련된 두 가지 차원을 포괄한다: 질문을 계산하는 데 얼마나 복잡한지와 질문을 정량화하는 데 얼마나 어려운지. 우리의 결과는 추론 모델이 일반적으로 비추론 언어 모델보다 게임 평가에서 사람과 더 일치한다는 것을 보여준다. 그러나 비단조적 관계도 관찰되는데, 모델이 게임 이론적 최적에 가까워질수록 인간 데이터와의 적합도가 약화된다. 또한 재미를 평가하는 데 있어 모델 간 더 큰 "들쭉날쭉함"이 관찰되는데, 이는 이 질문을 정량화하는 데 더 큰 어려움이 있음을 반영한다. 질문과 게임 전반에 걸쳐 추론 모델은 질문을 평가할 때 매우 다양하고 예측 불가능한 자원 사용을 보여주며, 이는 언어 및 추론 모델에 더 많은 자원-합리적 메타-추론을 부여하는 것의 중요성을 시사한다.
English
Reasoning is not just about solving problems -- it is also about evaluating which problems are worth solving at all. Evaluations of artificial intelligence (AI) systems primarily focused on problem solving, historically by studying how models play games such as chess and Go. In this paper, we advocate for a new paradigm that assesses AI systems' evaluation of games. First, we introduce a formalism for evaluating such evaluations. We then leverage a large-scale dataset of over 100 novel board games and over 450 human judgments to compare evaluations produced by modern language and reasoning models against those of people and symbolic computational agents. We consider two kinds of evaluative queries: assessing the payoff (or fairness) and the funness of games. These queries span two dimensions relevant to the design of evaluations of AI evaluations: how complex a query is to compute and how difficult a query is to quantify. Our results show that reasoning models are generally more aligned to people in their evaluations of games than non-reasoning language models. However, we observe a non-monotonic relationship: as models get closer to game-theoretic optimal, their fit to human data weakens. We also observe more "jaggedness" across models for assessing funness, in line with the greater difficulty of quantifying this query. Across queries and games, reasoning models show highly variable and unpredictable resource usage when assessing queries, pointing to the importance of imbuing more resource-rational meta-reasoning in language and reasoning models.
PDF02October 16, 2025