생성된 게임을 통한 일반 지능 측정
Measuring General Intelligence with Generated Games
May 12, 2025
저자: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin
cs.AI
초록
우리는 언어 모델의 일반적인 추론 능력을 평가하기 위해 설계된 게임 환경 컬렉션인 gg-bench를 소개합니다. 대부분의 정적 벤치마크와 달리, gg-bench는 새로운 평가 인스턴스를 원하는 대로 생성할 수 있는 데이터 생성 프로세스입니다. 특히, gg-bench는 (1) 대형 언어 모델(LLM)을 사용하여 새로운 게임의 자연어 설명을 생성하고, (2) LLM을 사용하여 각 게임을 Gym 환경으로 코드로 구현하며, (3) 생성된 게임에서 자기 대결을 통해 강화 학습(RL) 에이전트를 훈련함으로써 합성적으로 생성됩니다. 우리는 언어 모델을 평가하기 위해 게임 설명, 현재 보드 상태, 유효한 이동 목록을 모델에 제공한 후 모델이 선택한 이동을 출력하도록 합니다. gg-bench는 도전적입니다: GPT-4o 및 Claude 3.7 Sonnet과 같은 최첨단 LLM은 컨텍스트 내 학습을 사용하여 gg-bench에서 7-9%의 승률을 달성하는 반면, o1, o3-mini 및 DeepSeek-R1과 같은 추론 모델은 평균 31-36%의 승률을 달성합니다. 우리는 향후 모델링 작업과 벤치마크 확장을 지원하기 위해 생성된 게임, 데이터 생성 프로세스 및 평가 코드를 공개합니다.
English
We present gg-bench, a collection of game environments designed to evaluate
general reasoning capabilities in language models. Unlike most static
benchmarks, gg-bench is a data generating process where new evaluation
instances can be generated at will. In particular, gg-bench is synthetically
generated by (1) using a large language model (LLM) to generate natural
language descriptions of novel games, (2) using the LLM to implement each game
in code as a Gym environment, and (3) training reinforcement learning (RL)
agents via self-play on the generated games. We evaluate language models by
their winrate against these RL agents by prompting models with the game
description, current board state, and a list of valid moves, after which models
output the moves they wish to take. gg-bench is challenging: state-of-the-art
LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench
using in-context learning, while reasoning models such as o1, o3-mini and
DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games,
data generation process, and evaluation code in order to support future
modeling work and expansion of our benchmark.Summary
AI-Generated Summary