Algemene Intelligentie Meten met gegenereerde Spellen
Measuring General Intelligence with Generated Games
May 12, 2025
Auteurs: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin
cs.AI
Samenvatting
We presenteren gg-bench, een verzameling spelomgevingen ontworpen om algemene redeneervaardigheden in taalmodelen te evalueren. In tegenstelling tot de meeste statische benchmarks, is gg-bench een datageneratieproces waarbij nieuwe evaluatie-instanties naar believen kunnen worden gegenereerd. In het bijzonder wordt gg-bench synthetisch gegenereerd door (1) een groot taalmodel (LLM) te gebruiken om natuurlijke taal beschrijvingen van nieuwe spellen te genereren, (2) het LLM te gebruiken om elk spel in code te implementeren als een Gym-omgeving, en (3) reinforcement learning (RL) agenten te trainen via zelfspel op de gegenereerde spellen. We evalueren taalmodelen op basis van hun winrate tegen deze RL-agenten door modellen te voorzien van de spelbeschrijving, de huidige bordstatus en een lijst van geldige zetten, waarna modellen de zetten uitvoeren die ze willen nemen. gg-bench is uitdagend: state-of-the-art LLM's zoals GPT-4o en Claude 3.7 Sonnet behalen winrates van 7-9% op gg-bench met in-context learning, terwijl redeneermodellen zoals o1, o3-mini en DeepSeek-R1 gemiddelde winrates van 31-36% behalen. We geven de gegenereerde spellen, het datageneratieproces en de evaluatiecode vrij om toekomstig modelwerk en uitbreiding van onze benchmark te ondersteunen.
English
We present gg-bench, a collection of game environments designed to evaluate
general reasoning capabilities in language models. Unlike most static
benchmarks, gg-bench is a data generating process where new evaluation
instances can be generated at will. In particular, gg-bench is synthetically
generated by (1) using a large language model (LLM) to generate natural
language descriptions of novel games, (2) using the LLM to implement each game
in code as a Gym environment, and (3) training reinforcement learning (RL)
agents via self-play on the generated games. We evaluate language models by
their winrate against these RL agents by prompting models with the game
description, current board state, and a list of valid moves, after which models
output the moves they wish to take. gg-bench is challenging: state-of-the-art
LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench
using in-context learning, while reasoning models such as o1, o3-mini and
DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games,
data generation process, and evaluation code in order to support future
modeling work and expansion of our benchmark.Summary
AI-Generated Summary