Misurare l'Intelligenza Generale con Giochi Generati

Abstract

Presentiamo gg-bench, una raccolta di ambienti di gioco progettati per valutare le capacità di ragionamento generale nei modelli linguistici. A differenza della maggior parte dei benchmark statici, gg-bench è un processo di generazione di dati in cui nuove istanze di valutazione possono essere generate a piacimento. In particolare, gg-bench è generato sinteticamente attraverso (1) l'uso di un modello linguistico di grandi dimensioni (LLM) per generare descrizioni in linguaggio naturale di giochi innovativi, (2) l'uso dello stesso LLM per implementare ciascun gioco in codice come ambiente Gym, e (3) l'addestramento di agenti di apprendimento per rinforzo (RL) tramite auto-gioco sui giochi generati. Valutiamo i modelli linguistici in base al loro tasso di vittoria contro questi agenti RL, fornendo ai modelli la descrizione del gioco, lo stato attuale del tabellone e un elenco di mosse valide, dopo di che i modelli restituiscono le mosse che intendono effettuare. gg-bench è impegnativo: i migliori LLM come GPT-4o e Claude 3.7 Sonnet raggiungono tassi di vittoria del 7-9% su gg-bench utilizzando l'apprendimento in-context, mentre modelli di ragionamento come o1, o3-mini e DeepSeek-R1 raggiungono tassi di vittoria medi del 31-36%. Rilasciamo i giochi generati, il processo di generazione dei dati e il codice di valutazione per supportare futuri lavori di modellazione e l'espansione del nostro benchmark.

English

We present gg-bench, a collection of game environments designed to evaluate general reasoning capabilities in language models. Unlike most static benchmarks, gg-bench is a data generating process where new evaluation instances can be generated at will. In particular, gg-bench is synthetically generated by (1) using a large language model (LLM) to generate natural language descriptions of novel games, (2) using the LLM to implement each game in code as a Gym environment, and (3) training reinforcement learning (RL) agents via self-play on the generated games. We evaluate language models by their winrate against these RL agents by prompting models with the game description, current board state, and a list of valid moves, after which models output the moves they wish to take. gg-bench is challenging: state-of-the-art LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench using in-context learning, while reasoning models such as o1, o3-mini and DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games, data generation process, and evaluation code in order to support future modeling work and expansion of our benchmark.

Misurare l'Intelligenza Generale con Giochi Generati

Measuring General Intelligence with Generated Games

Abstract

Support