Misurare l'Intelligenza Generale con Giochi Generati
Measuring General Intelligence with Generated Games
May 12, 2025
Autori: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin
cs.AI
Abstract
Presentiamo gg-bench, una raccolta di ambienti di gioco progettati per valutare le capacità di ragionamento generale nei modelli linguistici. A differenza della maggior parte dei benchmark statici, gg-bench è un processo di generazione di dati in cui nuove istanze di valutazione possono essere generate a piacimento. In particolare, gg-bench è generato sinteticamente attraverso (1) l'uso di un modello linguistico di grandi dimensioni (LLM) per generare descrizioni in linguaggio naturale di giochi innovativi, (2) l'uso dello stesso LLM per implementare ciascun gioco in codice come ambiente Gym, e (3) l'addestramento di agenti di apprendimento per rinforzo (RL) tramite auto-gioco sui giochi generati. Valutiamo i modelli linguistici in base al loro tasso di vittoria contro questi agenti RL, fornendo ai modelli la descrizione del gioco, lo stato attuale del tabellone e un elenco di mosse valide, dopo di che i modelli restituiscono le mosse che intendono effettuare. gg-bench è impegnativo: i migliori LLM come GPT-4o e Claude 3.7 Sonnet raggiungono tassi di vittoria del 7-9% su gg-bench utilizzando l'apprendimento in-context, mentre modelli di ragionamento come o1, o3-mini e DeepSeek-R1 raggiungono tassi di vittoria medi del 31-36%. Rilasciamo i giochi generati, il processo di generazione dei dati e il codice di valutazione per supportare futuri lavori di modellazione e l'espansione del nostro benchmark.
English
We present gg-bench, a collection of game environments designed to evaluate
general reasoning capabilities in language models. Unlike most static
benchmarks, gg-bench is a data generating process where new evaluation
instances can be generated at will. In particular, gg-bench is synthetically
generated by (1) using a large language model (LLM) to generate natural
language descriptions of novel games, (2) using the LLM to implement each game
in code as a Gym environment, and (3) training reinforcement learning (RL)
agents via self-play on the generated games. We evaluate language models by
their winrate against these RL agents by prompting models with the game
description, current board state, and a list of valid moves, after which models
output the moves they wish to take. gg-bench is challenging: state-of-the-art
LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench
using in-context learning, while reasoning models such as o1, o3-mini and
DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games,
data generation process, and evaluation code in order to support future
modeling work and expansion of our benchmark.