Medición de la Inteligencia General mediante Juegos Generados
Measuring General Intelligence with Generated Games
May 12, 2025
Autores: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin
cs.AI
Resumen
Presentamos gg-bench, una colección de entornos de juego diseñados para evaluar capacidades de razonamiento general en modelos de lenguaje. A diferencia de la mayoría de los benchmarks estáticos, gg-bench es un proceso de generación de datos donde se pueden crear nuevas instancias de evaluación a voluntad. En particular, gg-bench se genera sintéticamente mediante (1) el uso de un modelo de lenguaje grande (LLM) para generar descripciones en lenguaje natural de juegos novedosos, (2) el uso del LLM para implementar cada juego en código como un entorno de Gym, y (3) el entrenamiento de agentes de aprendizaje por refuerzo (RL) mediante autojuego en los juegos generados. Evaluamos los modelos de lenguaje por su tasa de victoria contra estos agentes RL, solicitando a los modelos la descripción del juego, el estado actual del tablero y una lista de movimientos válidos, tras lo cual los modelos eligen los movimientos que desean realizar. gg-bench es desafiante: los LLM más avanzados, como GPT-4o y Claude 3.7 Sonnet, logran tasas de victoria del 7-9% en gg-bench utilizando aprendizaje en contexto, mientras que modelos de razonamiento como o1, o3-mini y DeepSeek-R1 alcanzan tasas de victoria promedio del 31-36%. Publicamos los juegos generados, el proceso de generación de datos y el código de evaluación para apoyar trabajos futuros de modelado y la expansión de nuestro benchmark.
English
We present gg-bench, a collection of game environments designed to evaluate
general reasoning capabilities in language models. Unlike most static
benchmarks, gg-bench is a data generating process where new evaluation
instances can be generated at will. In particular, gg-bench is synthetically
generated by (1) using a large language model (LLM) to generate natural
language descriptions of novel games, (2) using the LLM to implement each game
in code as a Gym environment, and (3) training reinforcement learning (RL)
agents via self-play on the generated games. We evaluate language models by
their winrate against these RL agents by prompting models with the game
description, current board state, and a list of valid moves, after which models
output the moves they wish to take. gg-bench is challenging: state-of-the-art
LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench
using in-context learning, while reasoning models such as o1, o3-mini and
DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games,
data generation process, and evaluation code in order to support future
modeling work and expansion of our benchmark.