Messung der Allgemeinen Intelligenz mit generierten Spielen
Measuring General Intelligence with Generated Games
May 12, 2025
Autoren: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin
cs.AI
Zusammenfassung
Wir stellen gg-bench vor, eine Sammlung von Spielumgebungen, die entwickelt wurde, um allgemeine Denkfähigkeiten von Sprachmodellen zu bewerten. Im Gegensatz zu den meisten statischen Benchmarks ist gg-bench ein datengenerierender Prozess, bei dem neue Evaluierungsinstanzen nach Belieben generiert werden können. Insbesondere wird gg-bench synthetisch erzeugt, indem (1) ein großes Sprachmodell (LLM) verwendet wird, um natürliche Sprachbeschreibungen neuartiger Spiele zu generieren, (2) das LLM verwendet wird, um jedes Spiel als Code in einer Gym-Umgebung zu implementieren, und (3) Reinforcement-Learning-Agenten (RL) durch Selbstspiel auf den generierten Spielen trainiert werden. Wir bewerten Sprachmodelle anhand ihrer Gewinnrate gegen diese RL-Agenten, indem wir die Modelle mit der Spielbeschreibung, dem aktuellen Spielzustand und einer Liste gültiger Züge prompten, woraufhin die Modelle die Züge ausgeben, die sie ausführen möchten. gg-bench ist anspruchsvoll: State-of-the-Art-LLMs wie GPT-4o und Claude 3.7 Sonnet erreichen Gewinnraten von 7-9 % auf gg-bench durch In-Context-Learning, während Denkmodelle wie o1, o3-mini und DeepSeek-R1 durchschnittliche Gewinnraten von 31-36 % erreichen. Wir veröffentlichen die generierten Spiele, den Datengenerierungsprozess und den Evaluierungscode, um zukünftige Modellierungsarbeiten und die Erweiterung unseres Benchmarks zu unterstützen.
English
We present gg-bench, a collection of game environments designed to evaluate
general reasoning capabilities in language models. Unlike most static
benchmarks, gg-bench is a data generating process where new evaluation
instances can be generated at will. In particular, gg-bench is synthetically
generated by (1) using a large language model (LLM) to generate natural
language descriptions of novel games, (2) using the LLM to implement each game
in code as a Gym environment, and (3) training reinforcement learning (RL)
agents via self-play on the generated games. We evaluate language models by
their winrate against these RL agents by prompting models with the game
description, current board state, and a list of valid moves, after which models
output the moves they wish to take. gg-bench is challenging: state-of-the-art
LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench
using in-context learning, while reasoning models such as o1, o3-mini and
DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games,
data generation process, and evaluation code in order to support future
modeling work and expansion of our benchmark.Summary
AI-Generated Summary